287K subscribers
3.98K photos
687 videos
17 files
4.55K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
⚡️ QwQ-32B-Preview: экспериментальная ризонинг-модель от Qwen.

QwQ (Qwen with Questions) – экспериментальная исследовательская модель, разработанная Qwen Team с фокусом на развитие способности рассуждения.

QwQ отличается любознательностью, подходя к каждой проблеме – будь то математика, программирование или знания о мире – с подлинным удивлением и сомнением. Прежде чем остановиться на каком-либо ответе, модель подвергает сомнению свои собственные предположения, исследуя разные пути рассуждений в поисках более глубокой истины.

QwQ-32B-Preview, предварительная версия модели, которая демонстрирует аналитические способности в математике и программировании, показывая топовые результаты в тестах:

🟢65.2% на GPQA (тест на решение научных задач на уровне выпускника);
🟢50.0% на AIME (оценка математических способностей);
🟢90.6% на MATH-500 (тест на понимание математики по различным темам);
🟢50.0% на LiveCodeBench (тест на навыки программирования в реальных сценариях).

Архитектура QwQ основана на transformers с использованием RoPE, SwiGLU, RMSNorm и Attention QKV bias. Модель имеет 32.5 млрд. параметров, 64 слоя и 40 attention heads для Q и 8 для KV. Контекст модели - 32 768 токенов.

⚠️ Как у любого эксперимента, у QwQ есть ограничения:

🟠Модель может смешивать языки или переключаться между ними неожиданно, влияя на четкость ответов.

🟠QwQ склонна входить в циклические шаблоны рассуждений, что приводит к длинным ответам без окончательного результата.

⚠️ Сообществом LM Studio опубликованы квантованные версии в формате GGUF в разрядности от 3-bit (17.2 Gb) до 8-bit (34.8 GB), совместимые для запуска в llama.cpp (release b4191) и LM Studio.


▶️Пример инференса на HF Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B-Preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many r in strawberry."
messages = [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Модель
🟡Набор GGUF версий
🟡Demo
🟡Сообщество в Discord


@ai_machinelearning_big_data

#AI #ML #LLM #QwQ #Qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍107👏2
🌟 FastDraft: ускорение инференса LLM с помощью спекулятивного декодирования.

Спекулятивное декодирование (или вспомогательная генерация) — это техника, которая ускоряет генерацию токенов при использовании дополнительной, SLM модели-черновика.

Техника работает следующим образом: модель-черновик предсказывает следующие K-токенов один за другим авторегрессионным способом, а основная LLM проверяет эти предсказания и исправляет их при необходимости.

Процесс проходит по каждому предсказанному токену, и, если обнаруживается разница между SLM-черновиком и LLM, останавливается и сохраняет последний токен, предсказанный основной моделью. Затем SLM-черновик получает последнее предсказание LLM и снова пытается предсказать следующие K-токенов, повторяя цикл.

FastDraft — метод для обучения и согласования модели-черновика с любой LLM для использования со спекулятивным декодированием путем тонкой настройки на синтетических датасетах, сгенерированных целевой LLM.

Предобученные модели-черновики FastDraft (Llama-3.1-8B-Instruct-FastDraft-150M-int8-ov и Phi-3-mini-FastDraft-50M-int8-ov) до 3 раз эффективнее по сравнению с инференсом одиночной LLM в задачах завершения кода и до 2 раз в задачах обобщения, завершения текста и инструкций.


🟡Набор моделей
🟡Ipynb блокнот
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #Intel #FastDraft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍8🔥5
🌟 Методы оценки LLM-моделей

Оценивая качество работы генеративной модели, специалисты сталкиваются с рядом трудностей. Классические методы оценки «ума» LLM, которые включают академические бенчмарки, не отражают реальной ценности моделей в бизнес-задачах — способности вести диалог или помогать с брейнштормингом.

Существуют специальные бенчмарки (COPA, PIQA, OpenBook, WinoGrande) для проверки «здравого смысла», но все они подвержены искажению результатов из-за возможных протечек данных в процессе обучения.

IT-компании, включая Яндекс, создают собственные внутренние бенчмарки под конкретные навыки моделей и реальные бизнес-сценарии использования. Это позволяет оценивать практическую пользу LLM, а не только академические показатели.

Есть и альтернативные способы:

🟠Разумность LLM могут оценивать сами пользователи через LMSYS Chatbot Arena. Есть вопрос и два варианта ответа, за один из которых нужно проголосовать. Система работает как шахматный турнир: за выигрыш получаете очки, за проигрыш — теряете.

🟢Экспертная оценка через AI-тренеров, которых отбирают по способности к фактчекингу. Но у этого подхода есть минусы: эксперт достигает предела компетенции, нужна постоянная система контроля качества, работа с людьми сложна и дорога.

В Яндексе отмечают, что нет единого «правильного» решения для оценки LLM — необходимо комбинировать разные подходы, постоянно исследовать данные и проверять, насколько модель действительно полезна в реальных задачах.


🔜 Разбор


@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍166🔥6
✔️ Amazon разрабатывает собственную GenAi-модель.

Amazon готовит к релизу модель генеративного ИИ, способную обрабатывать изображения, видео и текст. LLM под кодовым названием Olympus позволит клиентам искать определенные сцены в видео, например, победный бросок в баскетболе, используя простые текстовые запросы. Разработка Olympus поможет Amazon снизить зависимость от чат-бота Claude, который является популярным предложением на Amazon Web Services (AWS). Amazon может представить Olympus уже на следующей неделе на ежегодной конференции клиентов AWS re:Invent.
reuters.com

✔️ Google открывает Ai-кампус в Лондоне.

Google запустила образовательную программу AI Campus в Лондоне, чтобы поддержать и разнообразить следующее поколение специалистов в области ИИ. Расположенный в районе Сомерс-Таун, кампус был разработан в сотрудничестве с Camden Council и Camden Learning.

Двухлетняя пилотная программа нацелена на обучение местных студентов старших классов основам ИИ, предоставляя им доступ к прикладным ресурсам, наставничеству от экспертов Google и Google DeepMind, а также к реальным проектам, связывающим ИИ с различными областями. Фонд Google.org выделил грант в размере 865 000 фунтов стерлингов на финансирование программ по обучению основам ИИ по всей стране.
blog.google

✔️ DyCoke: метод динамического сжатия токенов для повышения эффективности моделей обработки видео.

Apple AI/ML совместно с лабораториями нескольких университетов представили DyCoke, метод динамического сжатия токенов в VLM. Метод, работающий без обучения, устраняет временную и пространственную избыточность в процессе анализа входного видео. Метод работает в 2 этапа: слияние временных токенов для консолидации избыточных токенов в соседних кадрах и динамическую обрезку в кеше KV во время декодирования.

DyCoke достигает ускорения инференса до 1,5 раз и сокращения использования VRAM в 1,4 раза по сравнению с базовыми моделями. Метод делает VLM более масштабируемыми для реальных приложений без необходимости точной настройки или дополнительного обучения. Код DyCoke пока не опубликован.
arxiv.org

✔️ TamGen: ИИ ускоряет разработку лекарств, создавая молекулы с учетом целевого белка.

Совместная команда Global Health Drug Discovery Institute и Microsoft Research разработала TamGen, модель генеративного ИИ, которая проектирует новые лекарственные соединения, ориентируясь на конкретные белки-мишени. В отличие от традиционных методов, TamGen не ограничивается анализом существующих соединений, а генерирует новые, химически разнообразные структуры, что позволяет расширить поиск терапевтических решений.

Модель обучается на последовательностях символов, представляющих молекулярные структуры, и использует информацию о 3D структуре белка-мишени. TamGen успешно идентифицировал несколько перспективных ингибиторов для протеазы Mycobacterium tuberculosis, а самое эффективное соединение продемонстрировало высокую биоактивность. TamGen также может оптимизировать существующие молекулы, разрабатывая фрагменты с учетом целевого белка, что потенциально позволяет создавать новые соединения на основе известной молекулярной структуры. Код TamGen и веса модели доступны на Github.
microsoft.com

✔️ xAI разрабатывает новый чат-бот и модель ИИ для потребительского рынка.

xAI Corp работает над созданием потребительского чат-бота, который может быть запущен уже в декабре. Компания обучает новую модель, которая, как ожидается, дебютирует примерно в то же время. xAI надеется, что алгоритм станет «самым мощным ИИ в мире по всем показателям». Новый ИИ станет новым дополнением к флагманской линейке LLM Grok.
siliconangle.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍247🔥3
🌟 cuPyNumeric: замена NumPy от NVIDIA.

По мере роста объемов данных и сложности вычислений, вычисления на Python и NumPy, основанные на CPU, нуждаются в ускорении для выполнения современных исследований.

cuPyNumeric разработана, чтобы стать заменой библиотеки NumPy, предоставляя сообществу Python распределенные и ускоренные вычисления на платформе NVIDIA. cuPyNumeric позволяет масштабировать вычисления без изменения кода проектов с одного CPU до суперкомпьютеров с несколькими GPU и вычислительными нодами.

Библиотека построена на Legate, поддерживает родной Python и интерфейс NumPy. cuPyNumeric доступен из conda (версия не ниже 24.1) в legate channel. На системах с GPU пакеты, поддерживающие графические ускорители будут выбраны автоматически во время установки.

Пример эффективности cuPyNumeric - обработка 10 ТБ микроизображений многоракурсной микроскопии в виде одного массива NumPy за один день с визуализаций в режиме реального времени.

▶️Установка и тест на примере из репозитория:

# Create new conda env
conda create -n myenv -c conda-forge -c legate cupynumeric

# Test via example from repo
$ legate examples/black_scholes.py
Running black scholes on 10K options...
Elapsed Time: 129.017 ms


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #NumPy #NVIDIA #cuPyNumeric
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👍1912🤔2🥰1
🌟 Wavehax: нейросетевой вокодер без эффекта наложения частот.

Wavehax - нейросетевой вокодер, который синтезирует аудиосигналы без искажений, вызванных наложением частот. Эта проблема часто возникает в моделях, работающих во временной области, где нелинейные операции и слои повышения дискретизации могут привести к наложению высокочастотных компонентов на низкочастотный диапазон.

Wavehax работает в частотно-временной области, оценивая комплексные спектрограммы и преобразуя их во временные сигналы с помощью кратковременного преобразования Фурье (STFT). Использование STFT позволяет получать более высокое качество синтезированной речи, особенно при экстраполяции на высокие значения основной частоты (F0).

Архитектура Wavehax построена на 2D CNN и специальном гармоническом априоре. Априор представляет собой комплексную спектрограмму, полученную из гармонического сигнала, который помогает модели генерировать высококачественные и согласованные по фазе гармонические компоненты.

В экспериментах, проведённых на корпусе японской речи JVS, Wavehax продемонстрировал качество речи, сравнимое с HiFi-GAN V1, при этом значительно сократив количество операций умножения-накопления и параметров модели.

Wavehax работает в 4 раза быстрее HiFi-GAN V1 на CPU и устойчив к экстраполяции на высокие значения F0, где эффект наложения частот становится особенно заметным.

▶️ Пример трейна и инференса с датасетом JVS:

# Set up the env
cd wavehax
pip install -e .

# Extract F0 and mel-spectrogram.
wavehax-extract-features audio=data/scp/jvs_all.scp

# Compute statistics of the training data
wavehax-compute-statistics feats=data/scp/train_no_dev.list stats=data/stats/train_no_dev.joblib

# Train the vocoder model
wavehax-train generator=wavehax discriminator=univnet train=wavehax train.train_max_steps=500000 data=jvs out_dir=exp/wavehax

# Inference via generate speech waveforms
wavehax-decode generator=wavehax data=jvs out_dir=exp/wavehax ckpt_steps=500000



🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Vocoder #Wavehax
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍14🔥3
✔️ Niantic тренирует большую геопространственную модель ИИ на данных Pokémon Go.

Niantic, разработчик Pokémon Go, объявила о создании модели ИИ, обученной на миллионах реальных изображений, собранных игроками Pokémon Go и приложения Scaniverse. Алгоритм, получивший название "большая геопространственная модель", обеспечит такое же свободное ориентирование в физическом мире, какое демонстрирует ChatGPT в мире языка.

Модель основана на данных "Системы визуального позиционирования" (VPS) Niantic, которая использует более 50 млн. нейросетей с более чем 150 трлн. параметров для определения местоположения телефона с точностью до сантиметра по одному изображению. Niantic планирует использовать новую модель для улучшения дополненной реальности в своих играх и разработки автономных систем и роботов.
singularityhub.com

✔️ AMD разрабатывает процессоры на основе стеклянных подложек.

AMD получила патент на использование стеклянных оснований при производстве процессоров. Стеклянные основания лучше отводят тепло, меньше теряют сигнал и точнее по размерам, чем традиционные материалы. Это делает их пригодными для высокочастотных задач, таких как 5G и искусственный интеллект.

Патент описывает технологию Through Glass Vias (TGV) для создания вертикальных каналов передачи данных и питания внутри стеклянного основания. Также в патенте представлен способ соединения нескольких стеклянных оснований с помощью меди.

AMD планирует использовать патент в процессорах Zen и новых GPU, состоящих из нескольких чиплетов.
techspot.com

✔️ Китай представил чип "Global Scheduling Ethernet".

Китайские компании представили чипы, работающие на базе протокола "Global Scheduling Ethernet" (GSE). Этот протокол предназначен для обработки больших объемов данных и обеспечения высокой скорости передачи, необходимых для искусственного интеллекта и других высокопроизводительных задач.

Разработка GSE началась в 2023 году при участии более 50 организаций, включая облачных провайдеров, производителей чипов и вузов. GSE является альтернативой технологии Ultra Ethernet Consortium (UEC), предназначенной для эффективной коммуникации в кластерах высокопроизводительных вычислений и ИИ.

Существующая технология Ethernet не подходит для больших рабочих нагрузок, связанных с обучением ИИ, из-за чего в ЦОДах, использующих GPU Nvidia, применяются проприетарные и дорогие технологии прямого соединения - NVLink. GSE нацелена решить эту проблему, предлагая эффективное и доступное решение для высокоскоростных вычислений.
tomshardware.com

✔️ Нанофотонные нейронные сети в объективах камер для вычислений.

Ученые из Вашингтонского университета разработали нанофотонную нейронную сеть (SVN3), которая встраивается в объективы камер и выполняет вычисления во время съемки, до записи на сенсор. SVN3 использует массив из 50 металлических элементов, оптимизированных для работы с некогерентным светом, которые выполняют параллельные многоканальные свертки со скоростью света без потребления энергии.

Для обучения сети используется метод низкоразмерной репараметризации. SVN3 достигает точности классификации изображений 72,76% на наборе данных CIFAR-10 и 48,64% на ImageNet, что сопоставимо с производительностью современных нейронных сетей.
SVN3 потребляет значительно меньше энергии, так как более 99% вычислений выполняется оптическим путем.
science.org

✔️ Более половины лонгридов в LinkedIn созданы ИИ.

Исследование Originality.ai показало, что 54% длинных постов в LinkedIn созданы искусственным интеллектом. В исследовании анализировались 8 795 длинных постов (не менее 100 слов), опубликованных с января 2018 года по октябрь 2024 года.

Запуск ChatGPT в 2022 году вызвал резкий рост количества контента, созданного ИИ, увеличившись на 189% с января по февраль 2023 года. После всплеска в феврале 2023 года наблюдается стабилизация, что может указывать на новую норму для контента в LinkedIn.
readwrite.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍266🔥4👏2
🌟 INTELLECT-1: релиз первой модели децентрализованного обучения.

PRIME Intellect опубликовала INTELLECT-1 (Instruct + Base), первую языковую модель с 10 млрд. параметров, совместно обученную за 50 суток 30 участниками эксперимента по всему миру.

PRIME Intellect использовала собственную платформу PRIME, разработанную для решения главных проблем децентрализованного обучения: ненадежность сети и динамическое управление вычислительными узлами.

Платформа использовала сеть из 112 GPU H100 на 3 континентах и ​​достигла коэффициента использования вычислений в 96% при оптимальных условиях.

Корпус обучения составлял на 1 трлн. токенов публичных датасетов с процентным соотношением: 55% fineweb-edu, 10% fineweb, 20% Stack V1, 10% dclm-baseline, 5% open-web-math.

▶️Технические характеристики:

🟢Parameters: 10B;
🟢Layers: 42;
🟢Attention Heads: 32;
🟢Hidden Size: 4096;
🟢Context Length: 8192;
🟢Vocabulary Size: 128256.

INTELLECT-1 достигла точности 37,5% на тесте MMLU и 72,26% на HellaSwag и превзошла несколько других моделей с открытым исходным кодом в WinoGrande с результатом 65,82%.

Хотя эти показатели немного отстают от современных популярных моделей, результаты эксперимента - важнейший шаг к демократизации разработки ИИ и предотвращению консолидации возможностей ИИ в рамках нескольких организаций.

▶️Квантованные в GGUF версии INTELLECT-1_Instruct в разрядностях от 3-bit (5.46 GB) до 8-bit(10.9 GB) от сообщества LM Studio.

▶️Пример инференса на Transformers:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

torch.set_default_device("cuda")
model = AutoModelForCausalLM.from_pretrained("PrimeIntellect/INTELLECT-1")
tokenizer = AutoTokenizer.from_pretrained("PrimeIntellect/INTELLECT-1")

input_text = "%prompt%"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=50, num_return_sequences=1)
output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)

print(output_text)


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей HF
🟡Набор GGUF версий
🟡Техотчет
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Decentralizated
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41👍188😎4
🌟 SmolVLM: набор компактных VLM от HuggingFace - Base, Synthetic и Instruct.

SmolVLM - серия компактных VLM с 2 млрд. параметров, отличающихся высокой эффективностью использования памяти и могут быть развернуты на локальных устройствах с ограниченными ресурсами.

Архитектура SmolVLM основана на Idefics3, с несколькими отличиями:

🟢В качестве языковой основы используется SmolLM2 1.7B вместо Llama 3.1 8B;

🟢Визуальная информация сжимается в 9 раз с помощью стратегии pixel shuffle, по сравнению с 4-кратным сжатием в Idefics3;

🟢Используются патчи размером 384x384 пикселей, а не 364x364;

🟢Визуальная основа модели изменена на shape-optimized SigLIP с патчами 384x384 пикселей и внутренними патчами 14x14;

🟢Контекстное окно SmolLM2 было расширено до 16 тыс. токенов для поддержки работы с несколькими изображениями.

Модель кодирует каждый патч изображения 384x384 в 81 токен, что позволяет ей обрабатывать тестовые запросы и изображения с использованием всего 1.2 тыс. токенов, в то время как Qwen2-VL использует 16 тыс. токенов. Это преимущество приводит к значительно более высокой скорости предварительной обработки (в 3,3-4,5 раза) и генерации (в 7,5-16 раз) по сравнению с Qwen2-VL.

Для самостоятельной тонкой настройки SmolVLM можно использовать transformers и TRL. Разработчиками представлен блокнот для файнтюна на VQAv2 с использованием LoRA, QLoRA или полной тонкой настройки. SmolVLM интегрирован с TRL для DPO через CLI.

⚠️ При batch sizes=4 и 8-битной загрузке QLoRA файнтюн потребляет около ~16 GB VRAM


📌Лицензирование:  Apache 2.0


🟡Статья на HF
🟡Набор моделей
🟡Demo


@ai_machinelearning_big_data

#AI #ML #SmallVLM #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2010🔥7