Это репозиторий HuggingFace содержит 60 000 строк формата "Запрос — ответ — функция API" , собранных APIGen, автоматизированным конвейером генерации данных, разработанным для создания поддающихся проверке качественных наборов данных для приложений.
Согласно описанию создателей, все данные в датасете проходят 3 иерархических этапа проверки: проверка формата, проверка выполнение функции и семантическая проверка.
Датасет прошел человеческую оценку 600 выборочных точек данных, и процент корректности превысил 95 %, а оставшиеся 5 % имеют незначительные проблемы, такие как неточные аргументы и т. д.
from
datasets
import
load_dataset
datasets
=
load_dataset
(
"Salesforce/xlam-function-calling-60k"
)
@ai_machinelearning_big_data
#Dataset #LLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥4❤3⚡1
PowerPaint - это универсальный инструмент, который поддерживает удаление объектов с помощью текста, вставку объектов с помощью маски и расширение границ изображения при помощи дорисовки.
Эти техники очень схожи с проприетарной технологией "Генеративная заливка", реализованной в Adobe Photoshop.
Основной функционал PowerPaint:
Изменения в версии v2:
Локальный запуск v2 с использованием GradioUI:
# Clone the Repository
git clone https://github.com/zhuang2002/PowerPaint.git
# Navigate to the Repository
cd projects/powerpaint
# Create Virtual Environment with Conda
conda create --name PowerPaint python=3.9
conda activate PowerPaint
# Install Dependencies
pip install -r requirements.txt
# Run PowerPaint v2
python gradio_PowerPaint_BrushNet.py
Для использования в составе ComfyUI - реализация BrushNet (включает в себя обновление PowerPaint v2)
⚖️ Лицензирование кода: MIT license
@ai_machinelearning_big_data
#Text2Image #Diffusers #ControlNet #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27❤8🔥7⚡1
Адаптация GraphRAG (Microsoft) с поддержкой локальных моделей через Ollama и с UI- интерфейсом на базе Gradio.
На сегодняшний день этот проект - единственный, предлагающий простой UI для локального запуска GrafRAG.
GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.
Реализация из этого репозитория имеет ключевые особенности:
Локальная установка:
conda create -n graphrag-ollama -y
conda activate graphrag-ollama
pip install -r requirements.txt
python app.py
Настройка подключения к Ollama в settings.yaml по пути:
ragtest/settings.yaml
⚠️ Проект активно поддерживается разработчиком и довольно оперативно обновляется с учетом найденных ошибок и репортов из issue.
@ai_machinelearning_big_data
#GrafRAG #LLM #ML #Ollama
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥9❤8
⚡️ Новостной дайджест
✔️ LangChain обновила инструменты, позволяющие создавать LLM-приложения
Обновления дают возможность разработчикам использовать любую функцию Python в качестве инструмента, более эффективно обрабатывать разнообразные входные данные и обогащать выходные данные. Кроме того, LangChain теперь предлагает надежные механизмы обработки ошибок и предоставляет исчерпывающую документацию для упрощения интеграции и управления.
blog.langchain.dev
✔️ В MIT разработали алгоритм, который строго проверяет функции Ляпунова в сложных системах, управляемых искусственным интеллектом.
Предложенный алгоритм эффективно находит и проверяет функции Ляпунова, обеспечивая гарантии устойчивости для таких систем. В нем используются контрпримеры для решения нестандартных ситуаций, что увеличивает способность целевой системы безопасно работать в различных условиях. Практическая эффективность алгоритма продемонстрированы на примере беспилотного квадрокоптера, перевернутого маятника и транспортного средства, отслеживающего путь.
news.mit.edu
✔️ Mistral AI и NVIDIA представили Mistral NeMo: 12B LLM с 128К контекстным окном, многоязычными возможностями и токенизатором Tekken.
Mistral NeMo отличается исключительными способностями к рассуждениям, обширными знаниями о мире и высокой точностью кодирования, что делает ее лучшей в своей размерной категории.
Модель выпущена под лицензией Apache 2.0, опубликованы 2 варианта: Mistral-Nemo-Instruct-2407 и Mistral-Nemo-Base-2407
Huggingface.co
✔️ NVIDIA представила Flextron: cетевую архитектуру и фреймворк для оптимизации моделей после обучения, поддерживающий гибкое развертывание моделей.
FLEXTRON преобразует предварительно обученную LLM в эластичную модель с помощью метода обучения на выборке и усовершенствованных алгоритмов маршрутизации.
Процесс преобразования включает ранжирование и группировку компонентов сети и обучение маршрутизаторов, которые управляют выбором подсетей на основе заданных пользователем ограничений, таких как задержка и точность.
marktechpost.com
@ai_machinelearning_big_data
#news #digest
Обновления дают возможность разработчикам использовать любую функцию Python в качестве инструмента, более эффективно обрабатывать разнообразные входные данные и обогащать выходные данные. Кроме того, LangChain теперь предлагает надежные механизмы обработки ошибок и предоставляет исчерпывающую документацию для упрощения интеграции и управления.
blog.langchain.dev
Предложенный алгоритм эффективно находит и проверяет функции Ляпунова, обеспечивая гарантии устойчивости для таких систем. В нем используются контрпримеры для решения нестандартных ситуаций, что увеличивает способность целевой системы безопасно работать в различных условиях. Практическая эффективность алгоритма продемонстрированы на примере беспилотного квадрокоптера, перевернутого маятника и транспортного средства, отслеживающего путь.
news.mit.edu
Mistral NeMo отличается исключительными способностями к рассуждениям, обширными знаниями о мире и высокой точностью кодирования, что делает ее лучшей в своей размерной категории.
Модель выпущена под лицензией Apache 2.0, опубликованы 2 варианта: Mistral-Nemo-Instruct-2407 и Mistral-Nemo-Base-2407
Huggingface.co
FLEXTRON преобразует предварительно обученную LLM в эластичную модель с помощью метода обучения на выборке и усовершенствованных алгоритмов маршрутизации.
Процесс преобразования включает ранжирование и группировку компонентов сети и обучение маршрутизаторов, которые управляют выбором подсетей на основе заданных пользователем ограничений, таких как задержка и точность.
marktechpost.com
@ai_machinelearning_big_data
#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤9🔥8
DeepSeek выложила в открытый доступ веса модели V2-Chat-0628. Это обновление флагманской Deepseek-V2, одной из лучших моделей в открытом доступе.
Согласно чартам LMSYS Chatbot Arena - эта модель №11 среди open-source моделей на сегодняшний день.
Детальные достижения:
Основная особенность обновления - была оптимизирована возможность следования инструкциям в области "система", что значительно повышает удобство работы с иммерсивным переводом, RAG и другими задачами.
Одновременно с обновлением в репозитории на Huggingface, модель доступна по API в сервисе https://platform.deepseek.com.
💵 Стоимость API DeepSeek-V2-Chat-0628 (128K Context length):
Input - $0.14 / 1M tokens
Output - $0.28 / 1M tokens
⚠️ Размер модели ~ 480 Gb, для локального запуска формата BF16 потребуется 8х80GB GPU`s.
⚖️ Лицензирование кода: MIT
⚖️ Лицензирование модели: Своя лицензия семейства DeepSeek-v2
@ai_machinelearning_big_data
#LLM #DeepSeekV2 #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26🔥5❤3🥰2🤣2
🔥 Apple только что выпустила LLM с открытым исходным кодом 7B, весами, кодом и набором данных! 👀
TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048. Обучена полностью на открытых данных.
✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers
▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794
@ai_machinelearning_big_data
#LLM #ML #Apple
TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048. Обучена полностью на открытых данных.
✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers
▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794
@ai_machinelearning_big_data
#LLM #ML #Apple
👍36🔥12❤7
Новостной дайджест
✔️ Groq выпустила Llama-3-Groq-70B-Tool-Use и Llama-3-Groq-8B-Tool-Use
Llama-3-Groq-70B-Tool-Use достигла точности 90.76% в Berkeley Function Calling Leaderboard (BFCL), превзойдя все другие модели с открытым исходным кодом и проприетарные модели. Llama-3-Groq-8B-Tool-Use показала точность 89.06%, заняв третье место в BFCL.
Модели обучались с использованием этически сгенерированных данных, без применения пользовательской информации. Они доступны на GroqCloud Developer Hub и на Hugging Face под той же лицензией, что и оригинальные модели Llama-3.
wow.groq.com
✔️ Представлена Deepset-Mxbai-Embed-de-Large-v1: двуязычная модель немецкого/английского языка с открытым исходным кодом.
Модель основана на intfloat/multilingual-e5-large и прошла тонкую настройку на более чем 30 миллионах пар немецких данных, специально адаптированных для задач поиска. Одной из ключевых метрик, используемых для оценки задач поиска, является NDCG@10, который измеряет точность ранжирования результатов по сравнению с идеально упорядоченным списком.
mixedbread.ai
✔️ Google DeepMind представил YouTube-SL-25: Многоязычный датасет с более чем 3 000 часами видео на языке жестов, охватывающий 25+ языков.
YouTube-SL-25 значительно расширяет возможности для задач сурдоперевода и идентификации. Создание датасета проходило в два этапа.
Сначала автоматические классификаторы отобрали подходящие видеоролики с YouTube. За этим этапом последовал процесс сортировки, в котором исследователи расставляли приоритеты видеороликам на основе критерий качества контента и согласованности видеоряда.
Таким подходом получилось собрать 81 623 видеоролика-кандидата, которые затем были просеяны до 39 197 общим объемом 3 207 часов контента.
В итоге получился датасет, который включает в себя 2,16 миллиона аннотаций объемом в 104 миллионов символов.
marktechpost.com
✔️ Sibyl: Система ИИ-агентов, разработанная для расширения возможностей LLM в сложных задачах рассуждения.
Sibyl - агентный фреймворк на основе LLM, предназначенный для решения сложных задач рассуждения.
Он состоит из четырех основных модулей: планировщика инструментов, канала сбора внешней информации, мультиагентного жюри, основанного на дебатах, и глобального рабочего пространства.
Ключевая идея заключается в канале получения внешней информации, который эффективно сжимает и обрабатывает поступающие данные, используя собственный язык представления. С помощью этих методик, Sibyl может сосредоточиться на важных деталях, сохранить длину контекста и расширить шаги рассуждения.
arxiv.org
@ai_machinelearning_big_data
#news #digest
Llama-3-Groq-70B-Tool-Use достигла точности 90.76% в Berkeley Function Calling Leaderboard (BFCL), превзойдя все другие модели с открытым исходным кодом и проприетарные модели. Llama-3-Groq-8B-Tool-Use показала точность 89.06%, заняв третье место в BFCL.
Модели обучались с использованием этически сгенерированных данных, без применения пользовательской информации. Они доступны на GroqCloud Developer Hub и на Hugging Face под той же лицензией, что и оригинальные модели Llama-3.
wow.groq.com
Модель основана на intfloat/multilingual-e5-large и прошла тонкую настройку на более чем 30 миллионах пар немецких данных, специально адаптированных для задач поиска. Одной из ключевых метрик, используемых для оценки задач поиска, является NDCG@10, который измеряет точность ранжирования результатов по сравнению с идеально упорядоченным списком.
mixedbread.ai
YouTube-SL-25 значительно расширяет возможности для задач сурдоперевода и идентификации. Создание датасета проходило в два этапа.
Сначала автоматические классификаторы отобрали подходящие видеоролики с YouTube. За этим этапом последовал процесс сортировки, в котором исследователи расставляли приоритеты видеороликам на основе критерий качества контента и согласованности видеоряда.
Таким подходом получилось собрать 81 623 видеоролика-кандидата, которые затем были просеяны до 39 197 общим объемом 3 207 часов контента.
В итоге получился датасет, который включает в себя 2,16 миллиона аннотаций объемом в 104 миллионов символов.
marktechpost.com
Sibyl - агентный фреймворк на основе LLM, предназначенный для решения сложных задач рассуждения.
Он состоит из четырех основных модулей: планировщика инструментов, канала сбора внешней информации, мультиагентного жюри, основанного на дебатах, и глобального рабочего пространства.
Ключевая идея заключается в канале получения внешней информации, который эффективно сжимает и обрабатывает поступающие данные, используя собственный язык представления. С помощью этих методик, Sibyl может сосредоточиться на важных деталях, сохранить длину контекста и расширить шаги рассуждения.
arxiv.org
@ai_machinelearning_big_data
#news #digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤8🔥3🥰1
Athene-Llama3-70B - это чат-ориентированная модель, дообученная с помощью RLHF на основе Llama-3-70B-Instruct.
Значительное повышение производительности - это результат строгих оценочных показателей в процессе обучения, качественный собственный датасет и уникальный посттренинговый конвейер Nexusflow.
Улучшения по сравнению с исходной Llama-3-70B-Instruct:
Athene-70B показала результат 77,8% в Arena-Hard-Auto, что ставит ее в один ряд с GPT-4o (79,2%) laude-3.5-Sonnet (79,3%).
Для сравнения, базовая Llama-3-70B-Instruct в Arena-Hard-Auto демонстрировала результат в 46,6%.
Athene-70B использует тот же шаблон системного промпта, что и Llama-3-70B-Instruct.
📌 Лицензирование: CC-BY-NC-4.0
@ai_machinelearning_big_data
#AI #Nexusflow #LLM #ML #Athene70B
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23❤7⚡4🔥3🥰1
⚡️T-lite: AI-Центр Т-Банка открывает доступ к собственной LLM в весовой категории 7—8 млрд параметров
Об этом было объявлено на Turbo ML Conf — первой конференции Т-Банка по ML.
Индустриальные и внутренние бенчмарки показали, что T-lite показывает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей размером 7—8 млрд параметров. После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.
На индустриальных и внутренних бенчмарках модель обогнала по показателям llama3-8b-instruct и chat-gpt 3.5. При этом T-lite создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.
С помощью нее компании смогут создавать LLM-приложения для собственного использования без передачи данных третьим лицам. Например, ассистентов поддержки, инструменты для анализа и обобщения больших объемов текста, модели суммаризации текста.
Модель
@ai_machinelearning_big_data
#opensource #LLM #ML
Об этом было объявлено на Turbo ML Conf — первой конференции Т-Банка по ML.
Индустриальные и внутренние бенчмарки показали, что T-lite показывает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей размером 7—8 млрд параметров. После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.
На индустриальных и внутренних бенчмарках модель обогнала по показателям llama3-8b-instruct и chat-gpt 3.5. При этом T-lite создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.
С помощью нее компании смогут создавать LLM-приложения для собственного использования без передачи данных третьим лицам. Например, ассистентов поддержки, инструменты для анализа и обобщения больших объемов текста, модели суммаризации текста.
Модель
@ai_machinelearning_big_data
#opensource #LLM #ML
🔥44👍22❤6😁3👏2🤔2
—
pip install pomegranate
Модели, реализованные с помощью pomegranate, могут быть настроены более гибко, чем с помощью других библиотек. Например, можно создать классификатор Байеса, который использует различные типы распределений для каждого признака (например, для связанных со временем признаков — экспоненциальное распределение, а для других признаков — распределение Пуассона).
Или, скажем, можно построить единую модель из нескольких байесовских сетей или сделать классификатор Байеса со скрытой марковской моделью, который делает прогнозы по последовательностям.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤26👍19🔥6✍2⚡1