Machinelearning

⚡️ Yi-Coder: Семейство специализированных моделей для программирования.

Yi-Coder - это серия LLM с открытым исходным кодом, которые предназначены для программирования.

Модели Yi-Coder выпущены в двух размерностях: 1,5 млрд и 9 млрд параметров с контекстным окном в 128 тысяч токенов. Доступны базовая и чат-версия:

🟢

Yi-Coder-9B;

🟢

Yi-Coder-9B-Chat;

🟠

Yi-Coder-1.5B;

🟠

Yi-Coder-1.5B-Chat.

Модели основаны на LLM Yi-9B и обучались на 2.4 трлн. токенов, полученных из наборов данных Github и CommonCrawl.
Yi-Coder обладают знаниями 52 языков программирования.

В бенчмарке LiveCodeBench Yi-Coder-9B-Chat достиг показателя в 23.4%, что больше, чем у
моделей с большим числом параметров, например: DeepSeek-Coder-33B-Instruct и CodeLLama-34B-Instruct.

Использование моделей Yi-Coder всех версий поддерживается в Transformers и vLLM.

Подробные руководства по системному промптингу, artifacts-style прототипированию в виде web-страницы, конвертации текстового запроса в SQL-Query, инструкцию по файнтюну и квантованию можно найти в репозитории проекта на Github.

▶️Установка:

# Clone repository
git clone https://github.com/01-ai/Yi-Coder.git
cd Yi-Coder

# Install requirements
pip install -r requirements.txt

📌Лицензирование : Apache 2.0 License.

🟡

Arxiv

🟡

Набор моделей

🟡

Сообщество в Discord

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #YiCoder

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🔥13❤11

10.3K views09:04

Machinelearning

🌟 SageAttention: метод квантования механизма внимания в архитектурах трансформеров.

Внимание - ключевой компонент трансформеров, но его квадратичная сложность вычислений становится проблемой при обработке длинных последовательностей. Квантование успешно применяется для ускорения линейных слоев, но оно мало изучено применительно к механизму внимания.

SageAttention - экспериментальный метод, который использует 8-битное квантование механизма внимания для ускорения вычислений и сохранения точности модели.

Метод не требует специального обучения и конвертации моделей в какой-либо формат, он применяется к существующим трансформеным моделям в режиме "plug-and-play".

Ключевые особенности метода:

🟢Для уменьшения ошибки квантования используется сглаживания матртицы К (среднее значение K вычитается по всем токенам);

🟢Квантование Q и K в INT8;
INT8 в четыре раза быстрее, чем в FP16, и в два раза быстрее, чем в FP8.

🟢Matmul PV выполняется с FP16-накопителем;
Умножение матриц в высокой разрядности позволяет ускорить вычисления без потери точности.

🟢Адаптивное квантование;
Для каждого слоя внимания выбирается наиболее быстрый вариант квантования.

SageAttention реализован с использованием Triton и оптимизирован для GPU RTX4090 и 3090. Метод превосходит FlashAttention2 и xformers по скорости примерно в 2,1 и 2,7 раза соответственно.

Тестирование на Llama2, CogvideoX, Unidiffuser и TIMM подтвердило сохранение метрик точности при использовании SageAttention.

⚠️ Использование SageAttention рекомендуется с версиями:

🟠python>=3.11;
🟠torch>=2.4.0;
🟠triton-nightly.

⚠️ SageAttention оптимизирован для RTX4090 и RTX3090. На других архитектурах GPU прирост производительности может быть незначительным.

▶️Пример использования:

# Install sageattention
pip install sageattention

# How to use
from sageattention import sageattn
attn_output = sageattn(q, k, v, is_causal=False, smooth_k=True)

# Plug-and-play example with Cogvideo
# add the following codes and run
from sageattention import sageattn
import torch.nn.functional as F

F.scaled_dot_product_attention = sageattn

# Specifically
cd example
python sageattn_cogvideo.py

📌Лицензирование: BSD-3-Clause license.

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #SageAttention #Transformers

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍26❤8🔥2

12.9K views16:00

Machinelearning

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

🌟 RT-DETRv2: усовершенствованная CV-модель для детекции объектов в реальном времени.

RT-DETRv2 - новая версия RT-DETR, альтернативы YOLO. RT-DETRv2 получила ряд улучшений: повышение гибкости, практичности и производительности.

Ключевое изменение - модификация модуля deformable attention в декодере. В RT-DETRv2 предлагается устанавливать различное количество точек выборки для признаков разных масштабов. Это дает возможность более эффективно извлекать многомасштабные признаки, делая ее более адаптировной к множествам сценариям детекции.

Чтобы сделать модель модель более практичной, заменили оператор grid_sample, характерный для DETR, на опциональный discrete_sample, который выполняет округление предсказанных смещений выборки, что ускоряет процесс без значительной потери точности.

RT-DETRv2 обучается стратегией динамического усиления данных (dynamic data augmentation). На ранних этапах используются более интенсивные методы аугментации, чтобы модель лучше обобщала данные. На поздних этапах уровень аугментации снижается, что позволяет модели адаптироваться к целевой области.

В новой версии используется кастомизация гиперпараметров в зависимости от масштаба модели. Например, для ResNet18 увеличивается скорость обучения, тогда как для более крупных моделей - ResNet101, она снижается.

Тесты RT-DETRv2 выполнялись на наборе датасете COCO, где модель показала улучшение метрики AP на 0.3–1.4 пункта по сравнению с RT-DETR, сохраняя при этом высокую скорость работы. Например, RT-DETRv2-S с архитектурой ResNet18 достигла AP 47.9, что на 1.4 пункта выше, чем у RT-DETR-S.

Скрипты для файнтюна RT-DETRv2 с Trainer или Accelerate размещены в репозитории HuggingFace на Github, а ноутбук простого инференса локально - тут или запустить в Google Collab.

📌Лицензирование: Apache 2.0

🟡

Статья

🟡

Arxiv

🟡

Google Collab инференса

🖥

Github

#AI #CV #RTDETRv2

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍51❤17🔥14👌1

20.6K views17:04

Machinelearning

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

✔️

Transformers & LLMs cheatsheet for Stanford's CME 295

Это репозиторий с набором визуальных шпаргалок, посвященных трансформерам и большим языковым моделям (LLM).

🌟 Материалы основаны на курсе CME 295 "Трансформеры и большие языковые модели", читаемом в Стэнфордском университете.

Это не книга или подробный туториал, а именно сжатые, наглядные обзоры ключевых концепций. Используются диаграммы, краткие пояснения, основные формулы и определения.

✔️Содержание: Охватывает фундаментальные темы, необходимые для понимания LLM:
✔️Механизм внимания (Attention Mechanism)
✔️Архитектура Трансформера (Transformer Architecture)
✔️Позиционное кодирование (Positional Encoding)
✔️Предобучение (Pre-training) и его цели (например, Masked Language Modeling, Next Sentence Prediction)
✔️Дообучение (Fine-tuning) для конкретных задач
✔️Промптинг (Prompting) и различные его техники
✔️Оценка (Evaluation) LLM
✔️Другие важные концепции в этой области.

Идеально подходит для повторения материала или для того, чтобы быстро схватить суть той или иной концепции.

🟡

Github

🟡

Multi-Head Attention Shape Transformations

#ml #cheatsheets #transformers

Please open Telegram to view this post

VIEW IN TELEGRAM

👍57❤16🔥3😁3

15.7K viewsedited 15:08

About

Blog

Apps

Platform