Машиннное обучение | Наука о данных Библиотека
16.9K subscribers
774 photos
10 videos
21 files
667 links
админ - @workakkk

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram - 🔥лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

№ 5037635661
加入频道
Google представила MLE-STAR — ИИ-агента, который автоматизирует разработку ML-моделей и побеждает в 63% соревнований Kaggle.

🚀 Полная автоматизация — агент сам проектирует, тестирует и оптимизирует модели без ручного кода.
🏆 Рекордные результаты — медали в 63% конкурсов MLE Bench Lite (36% из них — золото) против 25,8% у предыдущих решений.
🌐 Веб-поиск вместо устаревших моделей — MLE-STAR находит и использует актуальные архитектуры (EfficientNet, ViT) вместо ResNet.
🛡 Три модуля защиты — автоматическая проверка на баги, утечки данных и ошибки LLM.
💻 Open source — Google выложила код в составе Agent Development Kit (ADK).
🔄 Авто-апгрейд — за счёт постоянного поиска новейших моделей производительность растёт сама по мере развития ML.

🔜 Подробнее

#Google #GoogleResearch #ml #mle #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
😱75👍1🔥1💩1
Forwarded from Machinelearning
📌Скорость решает все: обзор эффективных архитектур для LLM.

Ландшафт архитектур LLM превратился в настоящий зоопарк. Почти каждую неделю появляются новые методы, обещающие меньший расход памяти и более быстрый инференс. Разобраться в этом становится все сложнее.

Большая группа исследователей выпустила подробный обзор Speed Always Wins, чтобы систематизировать все ключевые инновации в области эффективных архитектур для LLM.

Это не просто очередная статья, а попытка упорядочить и структурировать актуальные подходы, которые решают главную проблему классического трансформера - его квадратичную вычислительную сложность.

Обзор описывает 7 основных направлений.

🟡Линейное моделирование последовательностей.

Здесь авторы разбирают все подходы, которые так или иначе сводят сложность самовнимания к линейной. В эту категорию попадают 3 большие ветви: линейное внимание; линейные RNN, вроде и, конечно, модели на основе пространства состояний (SSM).

🟡Второе и третье направления посвящены идее разреженности.

Разреженное моделирование последовательностей основано на простом принципе: не каждый токен должен общаться с каждым. Здесь выделяются статические подходы (как в Longformer), где паттерны внимания заданы заранее, и динамические, где они определяются на лету в зависимости от контента.

🟡MoE.

Методика, которая уже стала мейнстримом. В МоЕ разреженность применяется не в механизме внимания, а в FFN-слоях, где для каждого токена активируется лишь небольшая часть экспертов, что позволяет наращивать число параметров без пропорционального роста вычислений.

🟡Четвёртый раздел - эффективное полное внимание.

В нем речь идет не об изменении асимптотической сложности, а об ее аппаратной оптимизации. Флагман - FlashAttention.

Есть детальный разбор, как за счет оптимизации обращений к памяти GPU удается кардинально ускорить вычисления, не прибегая к аппроксимациям. Сюда же относятся и групповые механизмы внимания: GQA и MQA.

🟡Гибридные архитектуры.

Это, пожалуй, самый горячий тренд. Его идея в том, чтобы стратегически комбинировать быстрые слои с линейной сложностью и медленные, но мощные слои с полным вниманием.

В обзоре выделяют два типа гибридизации: межслойную, как в Jamba, где разные типы слоев чередуются, и внутрислойную, где в одном слое разные головы могут использовать разные механизмы внимания.

 🟡Диффузионные LLM (DLLM) 
 
 Это неавторегрессионные модели, которые генерируют текст, постепенно восстанавливая его из шума. Их главная фишка в параллельном декодировании, что дает ощутимое ускорение инференса.
 
 В конце обзора есть анализ применения всех этих архитектур в разных модальностях - CV и аудио.


Так что, если хотите быстро разобраться в базовых методах, которые будут двигать дизайн LLM в ближайшее время, а двигаться он будет в сторону микширования алгоритмов, систем и железа, этот обзор - мастрид.


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Architectures
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍1🔥1
⚡️ YandexGPT 5.1 Pro

Новая модель от Yandex B2B Tech доступна для бизнеса в Yandex Cloud AI Studio. Она оптимизирована для корпоративных задач: краткие ответы для CRM и отчётов, извлечение данных из документов, поддержка системного промта.

📊 Качество улучшено: 71% хороших ответов (против 60% раньше), количество выдумок снизилось до 16%. Модель также лучше понимает российский культурный контекст и умеет честно отвечать «не знаю».

💰 Стоимость снижена в три раза — 40 коп. за 1000 токенов.

#ml #llm #business
💩75🔥3👍2👎1