Machinelearning

⚡️ Qwen2-VL: второе поколение VLM моделей от Alibaba Cloud.

Qwen2-VL - это новая версия VLMs, основанная на Qwen2 в семействе моделей Qwen. По сравнению предыдущим поколением, Qwen2-VL обладает возможностями:

🟢Распознавание изображений с различным разрешением и соотношением сторон;
🟢VQA-понимание видеороликов продолжительностью более 20 минут с поддержкой диалога;
🟢Интеграция с носимыми устройствами (мобильный телефон, робот и т.д) в качестве агента управления;
🟢Мультиязычность внутри входных данных, например на изображениях или видео.
🟢Улучшенное распознавание объектов и предметов;
🟢Расширенные возможности в области математики и понимания программного кода.

Набор Qwen2-VL состоит из трех основных моделей, две из которых публикуются в отrрытом доступе. Модель Qwen2-VL-72B доступна только по API:

🟠Qwen2-VL-72B;

🟢

Qwen2-VL-7B-Instruct;

🟢

Qwen2-VL-2B-Instruct,

и их квантованные версии в форматах AWQ и GPTQ в разрядностях Int8 и Int4.

Архитектура моделей. как и в прошлом поколении основана на ViT 600M и LLM Qwen2, но с добавлением двух ключевых модификаций:

🟠использование NDR (Naive Dynamic Resolution), который позволил обрабатывать входные данные любого разрешения, преобразуя их в динамическое количество визуальных токенов. Эта реализация максимально близка к имитации зрительного восприятия человека.

🟠технология Multimodal Rotary Position Embedding (M-ROPE). Благодаря деконструкции оригинального rotary embedding на три части, представляющие временную и пространственную информацию, M-ROPE дает возможность LLM одновременно захватывать 1D( текст ), 2D( визуал ) и 3D( видео ) информацию.

⚠️ Ограничения в возможностях и слабые стороны поколения состоят в том, что модели не умеют извлекать звук из видео, а их знания актуальны на июнь 2023 года.

Кроме того, они не могут гарантировать полную точность при обработке сложных инструкций или сценариев. Модели относительно слабы в задачах, связанных со счетом, распознаванием символов и трехмерным пространственным восприятием.

▶️Использование и интеграция Qwen2-VL возможна с инструментами и на фреймворках: Transformers, vLLM, Llama-Factory, AutoGPTQ, AutoAWQ.

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

Github [ Stars: 59 | Issues: 3 | Forks: 2]

@ai_machinelearning_big_data

#AI #Qwen #ML #GPTQ #VLM #AWQ

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13👍10❤5😁1

16.2K views09:32

Machinelearning

🌟 Nyuntam: Многофункциональный Toolkit для LLM и VLM.

Nyuntam - это набор инструментов для оптимизации, адаптации и ускорения моделей разной модальности в различных сферах применения. Nyuntam умеет обрезать (pruning), квантовать, дистиллировать, выполнять тонкую настройку под конкретные задачи с использованием методов (Q)LoRA, (Q)SSF и др.

Набор состоит из нескольких подмодулей, каждый из которых нацелен на решение конкретных задач:

🟢

Text Generation: сжатие текстовых LLM;

🟢

Vision: сжатие и оптимизация VLM;

🟢

Adapt: модуль для тонкой настройки и трансферного обучения LLM и VLM с использованием PEFT и параллелизма GPU.

Каждый подмодуль в Nyuntam требует YAML-файл, который определяет все необходимые гиперпараметры и конфигурации для запуска задачи.
Примеры и шаблоны этих YAML-файлов можно найти в каждом подмодуле репозитория. Для более подробных сведений о параметрах и вариантах использования обратитесь к подробной документации проекта.

Практические примеры задач с детальными туториалами:

🟢

Максимизация математической производительности для экстремального сжатия: 2-bit Llama3-8b;

🟢

4-bit квантование Llama3.1-8b с акселерацией для задач текстовой генерации;

🟢

2-х кратное уменьшение размера Llama3.1 70B методом Fluctuation-based Adaptive Structured Pruning;

🟢

Ускорение TensorRT LLM до 2,5 раз: эффективное 4-8-4 квантование Llama3.1-8b;

🟢

Ускорение 4-битной квантованной модели Llama;

🟠

Обрезка YOLOX с помощью MMRazor;

🟠

8-bit CPU квантование ResNet50 с помощью NNCF на датасете CIFAR-10;

🟠

Сегментация с помощью SegNeXt набора данных городских пейзажей с помощью SSF;

🟢

Файнтюн RTMDet на наборе данных face-det с помощью LoRA и DDP;

🟢

Файнтюн T5 large с помощью QLoRA на наборе данных XSUM;

🟢

Файнтюн Llama3-8b с помощью QDoRA и FSDP.

▶️Установка и запуск:

# Clone the Repository
git clone --recursive https://github.com/nyunAI/nyuntam.git
cd nyuntam

# Create & activate venv
python3 -m venv {ENVIRONMENT_NAME}
source {ENVIRONMENT_NAME}/bin/activate

# Install packages
# for text_generation
pip install -r text_generation/requirements.txt 
# for vision
pip install -r vision/requirements.txt 
# for nyuntam_adapt
pip install -r nyuntam_adapt/requirements.txt 

# run an experiment
python main.py --yaml_path {path/to/recipe.yaml}

🟡

Документация

🖥

Github [ Stars: 32 | Issues: 1 | Forks: 1]

@ai_machinelearning_big_data

#AI #NynAI #MLTool #LLM #VLM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23🔥6❤5

7.83K views11:03

About

Blog

Apps

Platform