287K subscribers
3.98K photos
684 videos
17 files
4.55K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
🌟 FastDraft: ускорение инференса LLM с помощью спекулятивного декодирования.

Спекулятивное декодирование (или вспомогательная генерация) — это техника, которая ускоряет генерацию токенов при использовании дополнительной, SLM модели-черновика.

Техника работает следующим образом: модель-черновик предсказывает следующие K-токенов один за другим авторегрессионным способом, а основная LLM проверяет эти предсказания и исправляет их при необходимости.

Процесс проходит по каждому предсказанному токену, и, если обнаруживается разница между SLM-черновиком и LLM, останавливается и сохраняет последний токен, предсказанный основной моделью. Затем SLM-черновик получает последнее предсказание LLM и снова пытается предсказать следующие K-токенов, повторяя цикл.

FastDraft — метод для обучения и согласования модели-черновика с любой LLM для использования со спекулятивным декодированием путем тонкой настройки на синтетических датасетах, сгенерированных целевой LLM.

Предобученные модели-черновики FastDraft (Llama-3.1-8B-Instruct-FastDraft-150M-int8-ov и Phi-3-mini-FastDraft-50M-int8-ov) до 3 раз эффективнее по сравнению с инференсом одиночной LLM в задачах завершения кода и до 2 раз в задачах обобщения, завершения текста и инструкций.


🟡Набор моделей
🟡Ipynb блокнот
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #Intel #FastDraft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍8🔥5