Machinelearning

⚡️

xlam-function-calling-60k — датасет для обучения LLM, способных взаимодействовать с внешними API

Это репозиторий HuggingFace содержит 60 000 строк формата "Запрос — ответ — функция API" , собранных APIGen, автоматизированным конвейером генерации данных, разработанным для создания поддающихся проверке качественных наборов данных для приложений.

Согласно описанию создателей, все данные в датасете проходят 3 иерархических этапа проверки: проверка формата, проверка выполнение функции и семантическая проверка.
Датасет прошел человеческую оценку 600 выборочных точек данных, и процент корректности превысил 95 %, а оставшиеся 5 % имеют незначительные проблемы, такие как неточные аргументы и т. д.

from

datasets

import

load_dataset datasets

=

load_dataset

(

"Salesforce/xlam-function-calling-60k"

)

🟡

Страница ApiGen

🟡

Hugging Face

@ai_machinelearning_big_data

#Dataset #LLM #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥4❤3⚡1

8.36K views09:06

Machinelearning

1:09

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 PowerPaint v2: обновление универсального инструмента для inpaint и outpaint изображений.

PowerPaint - это универсальный инструмент, который поддерживает удаление объектов с помощью текста, вставку объектов с помощью маски и расширение границ изображения при помощи дорисовки.
Эти техники очень схожи с проприетарной технологией "Генеративная заливка", реализованной в Adobe Photoshop.

Основной функционал PowerPaint:
🟢вставка и удаление объектов на изображении естественным и бесшовным образом;
🟢добавление объектов путем заполнения указанной области на изображении по текстовому промпту сохраняя общую целостность композиции;
🟢изменение формы и положения объектов, соблюдая гармоничное смешивание с фоном;
🟢расширение изображения по границам за счет генерации на основе анализа соседних существующих областей.

Изменения в версии v2:
🟠обновлены веса моделей с учетом issues первой версии;
🟠проект (код, веса) теперь полностью доступны в открытом доступе;
🟠доработан пользовательский UI-интерфейс (Gradio)

Локальный запуск v2 с использованием GradioUI:

# Clone the Repository
git clone https://github.com/zhuang2002/PowerPaint.git

# Navigate to the Repository
cd projects/powerpaint

# Create Virtual Environment with Conda
conda create --name PowerPaint python=3.9
conda activate PowerPaint

# Install Dependencies
pip install -r requirements.txt

# Run PowerPaint v2 
python gradio_PowerPaint_BrushNet.py

Для использования в составе ComfyUI - реализация BrushNet (включает в себя обновление PowerPaint v2)

⚖️ Лицензирование кода: MIT license

🟡

Страница проекта

🟡

Arxiv

🟡

Модели на HF

🖥

Github [Stars: 415 | Issues: 36 | Forks: 22]

@ai_machinelearning_big_data

#Text2Image #Diffusers #ControlNet #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27❤8🔥7⚡1

9.03K views13:19

Machinelearning

🌟 Локальный GraphRAG с Gradio UI

Адаптация GraphRAG (Microsoft) с поддержкой локальных моделей через Ollama и с UI- интерфейсом на базе Gradio.
На сегодняшний день этот проект - единственный, предлагающий простой UI для локального запуска GrafRAG.

GraphRAG — методология улучшенного извлечения данных для генерации текста из определенных источников (RAG) от Microsoft.

Реализация из этого репозитория имеет ключевые особенности:

🟢Поддержка локальных моделей: Использование локальных моделей с помощью Ollama;
🟢Удобный интерфейс для управления данными, выполнения запросов и визуализации результатов.;
🟢Визуализация графиков в реальном времени в 3D с помощью Plotly;
🟢Загрузка, просмотр, редактирование и удаление входных файлы прямо из UI;
🟢Просмотр результатов индексирования и артефактов;
🟢Логгирование в реальном времени для мониторинга и отладки.

Локальная установка:

conda create -n graphrag-ollama -y
conda activate graphrag-ollama

pip install -r requirements.txt

python app.py

Настройка подключения к Ollama в settings.yaml по пути:

ragtest/settings.yaml

⚠️ Проект активно поддерживается разработчиком и довольно оперативно обновляется с учетом найденных ошибок и репортов из issue.

🖥

Github [Stars: 453 | Issues: 8 | Forks: 33]

@ai_machinelearning_big_data

#GrafRAG #LLM #ML #Ollama

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26🔥9❤8

8.6K views17:03

Machinelearning

⚡️ Новостной дайджест

✔️ LangChain обновила инструменты, позволяющие создавать LLM-приложения

Обновления дают возможность разработчикам использовать любую функцию Python в качестве инструмента, более эффективно обрабатывать разнообразные входные данные и обогащать выходные данные. Кроме того, LangChain теперь предлагает надежные механизмы обработки ошибок и предоставляет исчерпывающую документацию для упрощения интеграции и управления.
blog.langchain.dev

✔️ В MIT разработали алгоритм, который строго проверяет функции Ляпунова в сложных системах, управляемых искусственным интеллектом.

Предложенный алгоритм эффективно находит и проверяет функции Ляпунова, обеспечивая гарантии устойчивости для таких систем. В нем используются контрпримеры для решения нестандартных ситуаций, что увеличивает способность целевой системы безопасно работать в различных условиях. Практическая эффективность алгоритма продемонстрированы на примере беспилотного квадрокоптера, перевернутого маятника и транспортного средства, отслеживающего путь.
news.mit.edu

✔️ Mistral AI и NVIDIA представили Mistral NeMo: 12B LLM с 128К контекстным окном, многоязычными возможностями и токенизатором Tekken.

Mistral NeMo отличается исключительными способностями к рассуждениям, обширными знаниями о мире и высокой точностью кодирования, что делает ее лучшей в своей размерной категории.
Модель выпущена под лицензией Apache 2.0, опубликованы 2 варианта: Mistral-Nemo-Instruct-2407 и Mistral-Nemo-Base-2407
Huggingface.co

✔️ NVIDIA представила Flextron: cетевую архитектуру и фреймворк для оптимизации моделей после обучения, поддерживающий гибкое развертывание моделей.

FLEXTRON преобразует предварительно обученную LLM в эластичную модель с помощью метода обучения на выборке и усовершенствованных алгоритмов маршрутизации.
Процесс преобразования включает ранжирование и группировку компонентов сети и обучение маршрутизаторов, которые управляют выбором подсетей на основе заданных пользователем ограничений, таких как задержка и точность.
marktechpost.com

@ai_machinelearning_big_data

#news #digest

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29❤9🔥8

9.31K viewsedited 20:00

Machinelearning

⚡️ DeepSeek-V2-Chat-0628: обновленная версия Deepseek-V2

DeepSeek выложила в открытый доступ веса модели V2-Chat-0628. Это обновление флагманской Deepseek-V2, одной из лучших моделей в открытом доступе.
Согласно чартам LMSYS Chatbot Arena - эта модель №11 среди open-source моделей на сегодняшний день.

Детальные достижения:
🟢Hard Prompts 3-я позиция чарта;
🟢Coding 3-я позиция чарта;
🟢Longer Query 4-я позиция чарта;
🟢Math 7-я позиция чарта.

Основная особенность обновления - была оптимизирована возможность следования инструкциям в области "система", что значительно повышает удобство работы с иммерсивным переводом, RAG и другими задачами.
Одновременно с обновлением в репозитории на Huggingface, модель доступна по API в сервисе https://platform.deepseek.com.

💵 Стоимость API DeepSeek-V2-Chat-0628 (128K Context length):
Input - $0.14 / 1M tokens
Output - $0.28 / 1M tokens

⚠️ Размер модели ~ 480 Gb, для локального запуска формата BF16 потребуется 8х80GB GPU`s.

⚖️ Лицензирование кода: MIT
⚖️ Лицензирование модели: Своя лицензия семейства DeepSeek-v2

🟡

Страница проекта

🟡

Arxiv

🟡

Модель на HF

@ai_machinelearning_big_data

#LLM #DeepSeekV2 #ML

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26🔥5❤3🥰2🤣2

14.1K views08:03

Machinelearning

🔥 Apple только что выпустила LLM с открытым исходным кодом 7B, весами, кодом и набором данных! 👀

TL;DR:
🧠 Базовая модель 7B, обученная на 2,5Т токенах ✅ Данные в основном на английском языке, контекстное окно 2048. Обучена полностью на открытых данных.

✅ Объединенные данные DCLM-BASELINE, StarCoder и ProofPile2
✅ MMLU 0.6372 > Mistral & < Llama3
✅ Открытая лицензия с лицензией Apple
✅ Соответствует моделям с закрытыми наборами данных, таким как Mistral
✅ Обучен с использованием Python и OpenLM framework
✅ Доступно на huggingface и в Transformers

▪Модель: https://huggingface.co/apple/DCLM-7B
▪Репозиторий: https://github.com/mlfoundations/dclm
▪Набор данных: https://huggingface.co/datasets/mlfoundations/dclm-baseline-1.0
▪Документация: https://arxiv.org/abs/2406.11794

@ai_machinelearning_big_data

#LLM #ML #Apple

👍36🔥12❤7

11.8K viewsedited 14:21

Machinelearning

Новостной дайджест

✔️ Groq выпустила Llama-3-Groq-70B-Tool-Use и Llama-3-Groq-8B-Tool-Use

Llama-3-Groq-70B-Tool-Use достигла точности 90.76% в Berkeley Function Calling Leaderboard (BFCL), превзойдя все другие модели с открытым исходным кодом и проприетарные модели. Llama-3-Groq-8B-Tool-Use показала точность 89.06%, заняв третье место в BFCL.

Модели обучались с использованием этически сгенерированных данных, без применения пользовательской информации. Они доступны на GroqCloud Developer Hub и на Hugging Face под той же лицензией, что и оригинальные модели Llama-3.
wow.groq.com

✔️ Представлена Deepset-Mxbai-Embed-de-Large-v1: двуязычная модель немецкого/английского языка с открытым исходным кодом.

Модель основана на intfloat/multilingual-e5-large и прошла тонкую настройку на более чем 30 миллионах пар немецких данных, специально адаптированных для задач поиска. Одной из ключевых метрик, используемых для оценки задач поиска, является NDCG@10, который измеряет точность ранжирования результатов по сравнению с идеально упорядоченным списком.
mixedbread.ai

✔️ Google DeepMind представил YouTube-SL-25: Многоязычный датасет с более чем 3 000 часами видео на языке жестов, охватывающий 25+ языков.

YouTube-SL-25 значительно расширяет возможности для задач сурдоперевода и идентификации. Создание датасета проходило в два этапа.
Сначала автоматические классификаторы отобрали подходящие видеоролики с YouTube. За этим этапом последовал процесс сортировки, в котором исследователи расставляли приоритеты видеороликам на основе критерий качества контента и согласованности видеоряда.
Таким подходом получилось собрать 81 623 видеоролика-кандидата, которые затем были просеяны до 39 197 общим объемом 3 207 часов контента.
В итоге получился датасет, который включает в себя 2,16 миллиона аннотаций объемом в 104 миллионов символов.
marktechpost.com

✔️ Sibyl: Система ИИ-агентов, разработанная для расширения возможностей LLM в сложных задачах рассуждения.

Sibyl - агентный фреймворк на основе LLM, предназначенный для решения сложных задач рассуждения.
Он состоит из четырех основных модулей: планировщика инструментов, канала сбора внешней информации, мультиагентного жюри, основанного на дебатах, и глобального рабочего пространства.
Ключевая идея заключается в канале получения внешней информации, который эффективно сжимает и обрабатывает поступающие данные, используя собственный язык представления. С помощью этих методик, Sibyl может сосредоточиться на важных деталях, сохранить длину контекста и расширить шаги рассуждения.
arxiv.org

@ai_machinelearning_big_data

#news #digest

Please open Telegram to view this post

VIEW IN TELEGRAM

👍30❤8🔥3🥰1

8.9K views18:21

Machinelearning

🌟 Athene-Llama3-70B: улучшенная чат-модель Llama-3-70B-Instruct от Nexusflow.

Athene-Llama3-70B - это чат-ориентированная модель, дообученная с помощью RLHF на основе Llama-3-70B-Instruct.
Значительное повышение производительности - это результат строгих оценочных показателей в процессе обучения, качественный собственный датасет и уникальный посттренинговый конвейер Nexusflow.

Улучшения по сравнению с исходной Llama-3-70B-Instruct:
🟢Более точное следование инструкциям, модель лучше реагирует на сложные промпты, выдавая четкие и лаконичные ответы;
🟢Повышена способность в математике и рассуждениях, способность решать вопросы, требующие большого количества аргументов;
🟢Улучшен навык помощи написания кода в виде расширенных предложений по коду для более легкого создания и внедрения;
🟢Доработана креативность в написании текстов, писем, эссэ;
🟢Улучшена поддержка мультиязычности и повышено качество семантического перевода с одного языка на другой.

Athene-70B показала результат 77,8% в Arena-Hard-Auto, что ставит ее в один ряд с GPT-4o (79,2%) laude-3.5-Sonnet (79,3%).
Для сравнения, базовая Llama-3-70B-Instruct в Arena-Hard-Auto демонстрировала результат в 46,6%.

▶️Внимание, размер модели составляет ~ 140 Gb

Athene-70B использует тот же шаблон системного промпта, что и Llama-3-70B-Instruct.

📌Лицензирование: CC-BY-NC-4.0

🟡

Страница проекта

🟡

Модель на HF

🟡

Сообщество и поддержка

🖥

Github Nexusflow [ Stars: 349 | Issues: 9 | Forks: 30 ]

@ai_machinelearning_big_data

#AI #Nexusflow #LLM #ML #Athene70B

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23❤7⚡4🔥3🥰1

11.6K views11:17

Machinelearning

⚡️T-lite: AI-Центр Т-Банка открывает доступ к собственной LLM в весовой категории 7—8 млрд параметров

Об этом было объявлено на Turbo ML Conf — первой конференции Т-Банка по ML.

Индустриальные и внутренние бенчмарки показали, что T-lite показывает лучшие результаты в решении бизнес-задач на русском языке среди открытых моделей размером 7—8 млрд параметров. После дообучения на конкретные бизнес-задачи T-lite дает качество, сопоставимое с проприетарными моделями размером от 20 миллиардов параметров, но при этом в разы дешевле в эксплуатации.

На индустриальных и внутренних бенчмарках модель обогнала по показателям llama3-8b-instruct и chat-gpt 3.5. При этом T-lite создана с использованием всего 3% вычислительных ресурсов, которые обычно требуются для такого типа моделей.

С помощью нее компании смогут создавать LLM-приложения для собственного использования без передачи данных третьим лицам. Например, ассистентов поддержки, инструменты для анализа и обобщения больших объемов текста, модели суммаризации текста.

Модель

@ai_machinelearning_big_data

#opensource #LLM #ML

🔥44👍22❤6😁3👏2🤔2

10.7K views14:35

Machinelearning

🌟

Pomegranate — библиотека Python для создания вероятностных моделей, таких как байесовские сети или марковские модели

— pip install pomegranate

Модели, реализованные с помощью pomegranate, могут быть настроены более гибко, чем с помощью других библиотек. Например, можно создать классификатор Байеса, который использует различные типы распределений для каждого признака (например, для связанных со временем признаков — экспоненциальное распределение, а для других признаков — распределение Пуассона).

Или, скажем, можно построить единую модель из нескольких байесовских сетей или сделать классификатор Байеса со скрытой марковской моделью, который делает прогнозы по последовательностям.

🖥

GitHub

🟡

Доки

🟡

Примеры использования

@ai_machinelearning_big_data

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤26👍19🔥6✍2⚡1

9.73K views20:33