287K subscribers
3.98K photos
691 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
LISA: Reasoning Segmentation via Large Language Model

New segmentation task -- reasoning segmentation. The task is designed to output a segmentation mask given a complex and implicit query text.

LISA раскрывает новые возможности сегментации мультимодальных LLM и позволяет решать сложные задачи рассуждения на знание реального мира.

🖥 Github: https://github.com/dvlab-research/lisa

📕 Paper: https://arxiv.org/abs/2308.00692v2

☑️ Dataset: https://github.com/dvlab-research/lisa#dataset

ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍72❤‍🔥1
🌟 TrustLLM для оценивания ответов LLM

TrustLLM — инструмент на Python для комплексного исследования ответов от LLM.
TrustLLM рассматривает 6 аспектов ответов: правдивость, безопасность, этичность, соблюдение конфиденциальности и другие.

В этом документе подробно объясняется, как использовать инструмент для оценки эффективности собственных моделей.


pip install trustllm


GitHub
Arxiv
Docs
Project

#llm

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥86
🌟 ManiWAV:— обучение роботизированные системы аудио-визуальному самоконтролю.

Исследователи из Stanford и Сolambia University при поддержке Toyota Research Institute разработали метод аудиовизуального обучения роботизированных манипуляторов, который превосходит некоторые альтернативные подходы по контактным операциям и может быть применим к любой релевантной промышленной среде.
https://github.com/real-stanford/maniwav/blob/main/assets/audio_teaser.jpg?raw=true
Для самостоятельного тестирования и применения нужны:
- совместимость с Universal Manipulation Interface (UMI)
- установить микрофоны на целевой манипулятор (рекомендации + модель грипера с держателем)
- загрузить датасет и модель

Доступны режимы тренировки и тестирования ( под ссылками строки кода для выполнения команд)
Тренировка выполняется при помощи CUDA, рекомендованный GPU: NVIDIA GeForce RTX 3090 24 GB, но есть поддержка multi-GPU


🟡 Страница проекта ManiWAV
🟡 Paper
🟡Summary Video
🖥 GitHub

@ai_machinelearning_big_data
👍27🔥103
🌟 MiraData: крупный датасет видеоданных с большой продолжительностью и структурированными аннотациями.

При обучении генеративных моделей большую роль в качестве инференса готовых моделей играет датасет обучения.
Одним из неплохих источников может стать MiraData от Tencent — готовый датасет суммарной продолжительностью видео в 16 тысяч часов, предназначенный для обучения моделей генерации текста в видео. Он включает в себя длинные видеоролики (в среднем 72,1 секунды) с высокой интенсивностью движения и подробными структурированными аннотациями (в среднем 318 слов на ролик).

Для оценки качества датасета была даже специально создана система бенчмарков MiraBench из 17 метрик, оценивающих временную согласованность, движения в кадре, качество видео, и другие параметры. Согласно их результатам, MiroData превосходит другие известные датасеты, доступные в открытых источниках , которые в основном состоят из коротких видеороликов с плавающим качеством и короткими описаниями.

🟡Страница проекта
🟡Arxiv
🤗 Hugging Face
🖥 GitHub [ Stars: 241 | Issues: 4 | Forks: 7 ]

@ai_machinelearning_big_data

#Text2Video #Dataset #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍239🔥5
⚡️ xlam-function-calling-60k — датасет для обучения LLM, способных взаимодействовать с внешними API

Это репозиторий HuggingFace содержит 60 000 строк формата "Запрос — ответ — функция API" , собранных APIGen, автоматизированным конвейером генерации данных, разработанным для создания поддающихся проверке качественных наборов данных для приложений.

Согласно описанию создателей, все данные в датасете проходят 3 иерархических этапа проверки: проверка формата, проверка выполнение функции и семантическая проверка.
Датасет прошел человеческую оценку 600 выборочных точек данных, и процент корректности превысил 95 %, а оставшиеся 5 % имеют незначительные проблемы, такие как неточные аргументы и т. д.

from
datasets
import
load_dataset
datasets
=
load_dataset
(
"Salesforce/xlam-function-calling-60k"
)


🟡Страница ApiGen
🟡Hugging Face

@ai_machinelearning_big_data

#Dataset #LLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥431
🌟 MINT-1T: мультимодальный датасет размером 1 триллионом токенов.

MINT-1T — это мультимодальный чередующийся набор данных с открытым исходным кодом, содержащий один триллион текстовых токенов и 3,4 миллиарда изображений.
Помимо этого, в него включены ранее неиспользованные источники: PDF-файлы и документы из ArXivOrg.

Состав и структура датасета :

🟢HTML-документы: 1029,4 миллиона шт.из дампов CommonCrawl WARC с 2017 по 2024 год;
🟢PDF-документы: 26,8 миллиона шт. из дампов CommonCrawl WAT за 2023-2024 годы;
🟢ArXiv-документы: 0,87 миллиона шт. были получены напрямую из S3-хранилищ ArXiv.

Процесс обработки длился более 6 месяцев, затрачено 4.2 млн процессорных часов и использовано порядка 2350 процессорных ядер вычислительной мощности.

Датасет был отфильтрован от документов низкого качества и дубликатов, очищен от персональных данных (e-mail, IP-адреса, другие идентификаторы), удален NSFW-контент.
Перед публикацией проведена дополнительная проверка фильтром качества текста из Huggingface Datatrove.
В этом команде разработки помогли инструменты:

🟠Детекция NSFW контента - https://github.com/GantMan/nsfw_model
🟠Определение языка - https://fasttext.cc/
🟠Фильтр качества текста - https://github.com/huggingface/datatrove
🟠Дедупликация - https://github.com/allenai/bff
🟠Парсинг PDF-файлов - https://github.com/pymupdf/PyMuPDF
🟠Парсинг HTML - https://github.com/huggingface/OBELICS

Эксперименты показали, что модели, обученные на MINT-1T, превосходят аналоги на существующих датасетах, особенно в задачах визуальных вопросов-ответов и обработки изображений.


📌Лицензирование : CC-BY-4.0


🟡Страница проекта
🟡Датасет на HF
🟡Arxiv
🖥Github [ Stars: 356 | Issues: 1 | Forks: 4]


@ai_machinelearning_big_data

#AI #Dataset #ML #MLLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍307🔥4👏42
🌟 MedTrinity-25M: Огромный датасет снимков для медтеха.

Med Trinity-25M - крупномасштабный мультимодальный набор данных для медицины из более 25 миллионов изображений в 10 модальностях, с подробными аннотациями для более чем 65 заболеваний.
Аннотации содержат:
🟠тип заболевания;
🟠классификация патологии;
🟠описания для регионов и межрегиональные связи.
🟠подробные локальные аннотации для областей интереса (ROI), включая ограничивающие рамки и маски сегментации.

MedTrinity-25M подходит для мультимодальных задач: создание медицинских описаний патологий и новообразований, отчетов, задач классификации и сегментации. Этот набор данных может быть использован для подготовки медицинских моделей искусственного интеллекта.

Модели:

🟢LLaVA-Med++ (VQA-RAD). Претрейн на данных LLaVA-Med и MedTrinity-25M (в частности, на подмножестве обучающего набора VQA-RAD), доработка на VQA-RAD;
🟢LLaVA-Med++ (SLAKE). Претрейн на данных LLaVA-Med и MedTrinity-25M (в частности, на подмножестве обучающего набора SLAKE), доработка на SLAKE;
🟢LLaVA-Med++ (PathVQA). Претрейн на данных LLaVA-Med и MedTrinity-25M (в частности, на подмножестве обучающего набора PathVQA), доработка на PathVQA;
🟢LLaVA-Med-Captioner. Captioner для создания мультигранулярных аннотаций.

▶️Установка, запуск обучения и оценка на этом датасете:

# Clone repository
git clone https://github.com/UCSC-VLAA/MedTrinity-25M.git

# Install Package
conda create -n llava-med++ python=3.10 -y
conda activate llava-med++
pip install --upgrade pip # enable PEP 660 support
pip install -e .

# Install cases FOR TRAIN
pip install -e ".[train]"
pip install flash-attn --no-build-isolation
pip install git+https://github.com/bfshi/scaling_on_scales.git
pip install multimedeval

# Pre-train 1 stage
cd MedTrinity-25M
bash ./scripts/med/llava3_med_stage1.sh

# Pre-train 2 stage
bash ./scripts/med/llava3_med_stage2.sh

# Finetune
cd MedTrinity-25M
bash ./scripts/med/llava3_med_finetune.sh

# Eval
cd MedTrinity-25M
bash ./scripts/med/llava3_med_eval_batch_vqa_rad.shs



🟡Страница проекта
🟡Arxiv
🟡Датасет
🖥Github [ Stars: 118 | Issues: 0 | Forks: 8]


@ai_machinelearning_big_data

#AI #Dataset #MedTech #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
22🔥9👍8🥰1
🌟 OpenMathInstruct-2: математический датасет и набор моделей от NVIDIA.

OpenMathInstruct-2 состоит из 14 млн. пар "вопрос-решение" (примерно 600 тысяч уникальных вопросов) и является одним из крупнейших общедоступных наборов данных для обучения LLM в математике.

Набор данных создан на основе Llama-3.1-405B-Instruct путем синтеза решений для существующих вопросов из наборов данных MATH и GSM8K и генерации новых задач и решений.

Результаты абляционных экспериментов, которые проводились для поиска оптимальных параметров синтеза, показали, что:

🟢формат решения имеет значение, причем чрезмерно подробные решения негативно сказываются на производительности модели;

🟢данные, сгенерированные сильной моделью-учителем, превосходят по качеству данные, полученные от более слабой модели;

🟢процесс обучения устойчив к наличию до 20% решений низкого качества;

🟢разнообразие вопросов имеет решающее значение для масштабирования данных.

Итоговые данные, включенные в датасет прошли тщательную деконтаминацию с использованием конвейера lm-sys и ручной проверки на поиск дубликатов с тестовыми наборами данных.

OpenMathInstruct-2 показал высокую эффективность при обучении LLM.

Модель Llama3.1-8B-Base, обученная на OpenMathInstruct-2, превзошла Llama3.1-8B-Instruct на 15,9% по точности на наборе данных MATH, а OpenMath2-Llama3.1-70B обошла Llama3.1-70B-Instruct на 3,9%.

Датасет выпущен в 3-х размерностях: полный набор (примерно 7.5 GB) и уменьшенные версии train_1M (640 Mb), train_2M (1.3 Gb) и train_5M (3.1 Gb).

▶️ Модели, дообученные на этом датасете:

🟠OpenMath2-Llama3.1-70B, в формате Nemo, квантованные версии GGUF (от 3-bit до 8-bit);

🟠OpenMath2-Llama3.1-8B, в формате Nemo, квантованные версии GGUF (от 2-bit до 8-bit).


📌Лицензирование датасета : CC-BY-4.0 License.

📌Лицензирование моделей: Llama 3.1 Community License.


🟡Набор моделей
🟡Arxiv
🟡Датасет


@ai_machinelearning_big_data

#AI #ML #LLM #MATH #NVIDIA #Dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1811🔥4
🌟 CogVideoX Factory: оптимизация файнтюна моделей генерации видео семейства CogVideoX.

CogVideoX Factory - репозиторий с набором скриптов для эффективного файнтюна моделей семейства CogVideoX (CogVideoX-2B и CogVideoX-5B) с фокусом на оптимизацию VRAM. CogVideoX Factory позволяет выполнять обучение на GPU с 24 GB.

Проект предоставляет гибкость в выборе между LoRA и файнтюном всей модели для задач "text-to-video" и "IMG-to-video".

Чтобы сделать возможным файнтюн на ограниченных ресурсах, CogVideoX использует методы оптимизации:

🟢CPUOffloadOptimizer - перемещает обучаемые параметры и градиенты модели в CPU, освобождая память GPU для других операций;

🟢DeepSpeed Zero2 - распределяет параметры модели по нескольким GPU, что позволяет обучать большие модели, которые иначе не поместились бы в память одного GPU;

🟢LoRA - метод тонкой настройки, который изменяет только небольшое подмножество параметров модели, сохраняя при этом основную часть весов неизменной.

CogVideoX Factory предлагает сценарии обучения:

🟠LoRA для "text-to-video": cкрипт train_text_to_video_lora.sh;

🟠LoRA для "IMG-to-video": cкрипт train_image_to_video_lora.sh;

🟠SFT всей модели для "text-to-video": скрипт train_text_to_video_sft.sh.

⚠️ Предварительная подготовка данных - один из важнейших условий CogVideoX Factory. Скрипт prepare_dataset.py играет ключевую роль в этом процессе, преобразуя видео и аннотации в латенты и эмбединги. Использование предварительно вычисленных латентов и эмбедингов позволяет не загружать VAE и T5 во время обучения.

CogVideoX Factory предлагает подробную документацию, в которой объясняются шаги по подготовке датасетов, настройке параметров обучения, запуску инференса, информацию о требованиях к памяти для каждой модели и конфигурации, помогая принять корректные решения о выборе стратегии обучения.


📌Лицензирование : Apache 2.0 License.


🖥Github


@ai_machinelearning_big_data

#AI #ML #LoRA #T2V #IMG2V #Finetune
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍95