Machinelearning

🌟 LLaVaOLMBitNet1B: первая тернарная мультимодальная LLM от IntelLabs.

LLaVaOLMoBitnet1B - мультимодальная модель, способная принимать в качестве входных данных изображение + текст (запрос) и отдавать согласованные текстовые ответы на выходе.

Архитектура модели состоит из 3-х частей:

🟢CLIP ViT-L/14 на 100М параметров, состоящий из 24 слоев с размером скрытого слоя 1024;
🟢MLP, состоящий из 2-х линейных слоев с размером скрытого слоя 2048 с активацией GELU;
🟢Тернарная LLM (OLMoBitNet1B) с 1.1 миллиардом параметров, состоящая из 16 слоев, в которых все линейные слои заменены на слои BitLinear158.

Модель была обучена в 2 фазы. Первая - предварительное обучение для выравнивания функций и вторая фаза - тонкой настройки инструкций.

Фаза предварительного обучения состояла из 1 эпохи на отфильтрованном наборе данных 595 тыс. концептуальных текстовых аннотаций, с обновлением весов только проекционного слоя.
Для второй фазы точной настройки инструкций использовалась 1 эпоха с набором данных LLaVa-Instruct-150K с обновлением и весов слоя проекции и весов LLM.

⚠️ Примечание: Модель в репозитории IntelLabs на Huggingface находится в режиме акцепта доступа. После отправки запроса пройдет какое-то время, прежде чем владелец репозитория одобрит запрос.

▶️Локальная установка и запуск:

# Clone repositry
git clone https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B

# Move to folder & intall requirements
cd LlavaOLMoBitnet1B
pip install -r requirements.txt

# Run inference
python llava_olmo.py

▶️Чтобы задать свой промпт и указать путь до целевого изображения, измените параметры в файле llava_olmo.py:

text = "Be concise. Describe what is in the image"

url = "https://URL_TO_IMAGE.jpg"

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🟡

Модель

@ai_machinelearning_big_data

#AI #Intel #ML #LlavaBitNet

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍21🔥9❤3

18.2K views08:25

Machinelearning

🌟 FastDraft: ускорение инференса LLM с помощью спекулятивного декодирования.

Спекулятивное декодирование (или вспомогательная генерация) — это техника, которая ускоряет генерацию токенов при использовании дополнительной, SLM модели-черновика.

Техника работает следующим образом: модель-черновик предсказывает следующие K-токенов один за другим авторегрессионным способом, а основная LLM проверяет эти предсказания и исправляет их при необходимости.

Процесс проходит по каждому предсказанному токену, и, если обнаруживается разница между SLM-черновиком и LLM, останавливается и сохраняет последний токен, предсказанный основной моделью. Затем SLM-черновик получает последнее предсказание LLM и снова пытается предсказать следующие K-токенов, повторяя цикл.

FastDraft — метод для обучения и согласования модели-черновика с любой LLM для использования со спекулятивным декодированием путем тонкой настройки на синтетических датасетах, сгенерированных целевой LLM.

Предобученные модели-черновики FastDraft (Llama-3.1-8B-Instruct-FastDraft-150M-int8-ov и Phi-3-mini-FastDraft-50M-int8-ov) до 3 раз эффективнее по сравнению с инференсом одиночной LLM в задачах завершения кода и до 2 раз в задачах обобщения, завершения текста и инструкций.

🟡

Набор моделей

🟡

Ipynb блокнот

🟡

Arxiv

@ai_machinelearning_big_data

#AI #ML #LLM #Intel #FastDraft

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤19👍8🔥5

14.8K views14:01

About

Blog

Apps

Platform