Forwarded from Machinelearning
PRIME Intellect опубликовала INTELLECT-1 (Instruct + Base), первую языковую модель с 10 млрд. параметров, совместно обученную за 50 суток 30 участниками эксперимента по всему миру.
PRIME Intellect использовала собственную платформу PRIME, разработанную для решения главных проблем децентрализованного обучения: ненадежность сети и динамическое управление вычислительными узлами.
Платформа использовала сеть из 112 GPU H100 на 3 континентах и достигла коэффициента использования вычислений в 96% при оптимальных условиях.
Корпус обучения составлял на 1 трлн. токенов публичных датасетов с процентным соотношением: 55% fineweb-edu, 10% fineweb, 20% Stack V1, 10% dclm-baseline, 5% open-web-math.
INTELLECT-1 достигла точности 37,5% на тесте MMLU и 72,26% на HellaSwag и превзошла несколько других моделей с открытым исходным кодом в WinoGrande с результатом 65,82%.
Хотя эти показатели немного отстают от современных популярных моделей, результаты эксперимента - важнейший шаг к демократизации разработки ИИ и предотвращению консолидации возможностей ИИ в рамках нескольких организаций.
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
torch.set_default_device("cuda")
model = AutoModelForCausalLM.from_pretrained("PrimeIntellect/INTELLECT-1")
tokenizer = AutoTokenizer.from_pretrained("PrimeIntellect/INTELLECT-1")
input_text = "%prompt%"
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output_ids = model.generate(input_ids, max_length=50, num_return_sequences=1)
output_text = tokenizer.decode(output_ids[0], skip_special_tokens=True)
print(output_text)
@ai_machinelearning_big_data
#AI #ML #LLM #Decentralizated
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17❤5🔥4
Forwarded from Machinelearning
Репозиторий на Github c набором ipynb-туториалов по Prompt Engineering для освоения методов создания оптимальных промптов для модели Qwen2.5-14B.
Руководство разделено на 9 глав с практическими упражнениями и приложением с "продвинутыми" методами. В каждой главе есть "Example Playground" для экспериментов с примерами и наблюдения за изменениями в инференсе Ollama.
Руководство использует модель Qwen 2.5-14B, но все материалы подходят и для модели Qwen 2.5-7B.
Начальный уровень
Средний уровень
Продвинутый уровень
Приложение: За пределами стандартных подсказок
@ai_machinelearning_big_data
#AI #ML #LLM #Github #Tutorial #Ollama
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12❤4🔥2
Forwarded from Machinelearning
🔥 Sky-T1-32B-Preview 32B - 450$ - это все, что вам нужно, чтобы обучить свою собственную O1 🌟
Модель достигает конкурентоспособных результатов в рассуждениях и кодинге, 82.4 в Math500, 86.3 в LiveCode-East по сравнению с QwQ (85.4, 90.7) и o1-preview (81.4, 92.9) 🎓
Это новая O1 - подобная модель с открытым исходным кодом, обученная за < 450$, полностью открытый исходный код, 17K обучающих данных, , модель превосходит Qwen-2.5-32B-Instruct по всем бенчмаркам 💥
🤗HF: https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview
@ai_machinelearning_big_data
#llm #ml
Модель достигает конкурентоспособных результатов в рассуждениях и кодинге, 82.4 в Math500, 86.3 в LiveCode-East по сравнению с QwQ (85.4, 90.7) и o1-preview (81.4, 92.9) 🎓
Это новая O1 - подобная модель с открытым исходным кодом, обученная за < 450$, полностью открытый исходный код, 17K обучающих данных, , модель превосходит Qwen-2.5-32B-Instruct по всем бенчмаркам 💥
🤗HF: https://huggingface.co/NovaSky-AI/Sky-T1-32B-Preview
@ai_machinelearning_big_data
#llm #ml
👍18🔥10❤5
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
Paper submitted by #DeepSeek team has generated significant attention in the AI community.
This work addresses the enhancement of reasoning capabilities in Large Language Models (LLMs) through the application of reinforcement learning techniques. The authors introduce a novel framework, DeepSeek-R1, which aims to improve LLM reasoning abilities by incorporating incentives for logical reasoning processes within their training. This integration of reinforcement learning allows LLMs to go beyond basic linguistic processing, developing sophisticated reasoning methods that can boost performance across a wide array of complex applications.
This approach has cause lots of discussions in different communities, but it definitely opens up the whole new direction of development for the research.
Source: https://arxiv.org/abs/2501.12948
#nn #LLM
@opendatascience
Paper submitted by #DeepSeek team has generated significant attention in the AI community.
This work addresses the enhancement of reasoning capabilities in Large Language Models (LLMs) through the application of reinforcement learning techniques. The authors introduce a novel framework, DeepSeek-R1, which aims to improve LLM reasoning abilities by incorporating incentives for logical reasoning processes within their training. This integration of reinforcement learning allows LLMs to go beyond basic linguistic processing, developing sophisticated reasoning methods that can boost performance across a wide array of complex applications.
This approach has cause lots of discussions in different communities, but it definitely opens up the whole new direction of development for the research.
Source: https://arxiv.org/abs/2501.12948
#nn #LLM
@opendatascience
👍24❤6
Forwarded from Machinelearning
⚡️ Gemma 3 QAT
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».
Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.
Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.
✔️HF
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
Google DeepMind выпустили обновленные версии своих языковых моделей Gemma 3, которые стали значительно эффективнее по использованию памяти без существенной потери производительности.
Ключевая технология: QAT (Quantization-Aware Training)
Что это? QAT — это техника обучения, при которой модель во время дообучения "учится" работать с пониженной точностью вычислений (используя меньше бит для представления чисел). Это имитирует условия, в которых модель будет работать после квантизации (сжатия).
Обычная квантизация после обучения может привести к падению точности. QAT позволяет модели заранее адаптироваться к работе в низкоточном режиме, минимизируя потерю качества после финальной квантизации.
Каждая модель (1B, 4B, 12B, 27B) была дообучена примерно на 5000 шагов с имитацией низкой разрядности весов. При этом использовался приём, похожий на знание-дистилляцию: оригинальная неквантованная модель выступала в роли «учителя».
Преимущество QAT-подхода для Gemma 3 оказалось колоссальным. Официально заявлено, что квантованные модели Gemma 3 QAT сохраняют качество, практически не упало, при этом требуют в ~3 раза меньше памяти.
Например, объём памяти для хранения весов самой крупной модели на 27B параметров сократился с ~54 ГБ (в формате bfloat16) до ~14 ГБ в 4-битном целочисленном формате – это экономия памяти примерно в ~3–4 раза.
ollama run hf(.)co/google/gemma-3-4b-it-qat-q4_0-gguf
✔️HF
@ai_machinelearning_big_data
#google #gemma #AI #ML #LLM #Quantization
👍5🔥5❤1🥰1
Forwarded from Machine learning Interview
🚀 Релиз от NVIDIA: Llama-Nemotron-Ultra 253B!
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
👍7🔥7❤3
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 Huawei представила языковую модель Pangu Ultra на 135 млрд параметров
Компания Huawei представила новую версию своей флагманской модели — Pangu Ultra. Это первая в Китае крупномасштабная языковая модель, полностью разработанная и обученная на отечественных чипах Ascend NPU без использования западных технологий.
Главное достижение:
• Модель (135B) превосходит Llama 405B и Mistral Large 2, соответствуя DeepSeek-R1 при меньшем размере
• Обучалась на 8192 NPU Ascend и 13.2 триллионах токенов с уникальными архитектурными решениями
🔍 Технологические инновации:
Стабильность обучения
• DSSN (Depth-scaled sandwich-norm) – новая архитектура нормализации для глубоких моделей
• TinyInit – революционный метод инициализации параметров
Оптимизация данных
• "Умный" токенизатор с 153,376 токенами (охватывает код, математику, языки)
• Трехэтапное обучение: общие знания → логика → специализация
⚡ Рекордные показатели:
- Поддерживает контекст до 128К токенов (~170 тыс. китайских иероглифов)
- Достигла 50% эффективности использования вычислительных ресурсов (MFU) на кластере из 8192 NPU
Технические детали:
• Гибридный параллелизм: 128DP × 8TP × 8PP + виртуальный конвейер
• Оптимизации системы: MC2, NFA, RoPE-операторы
• Потребление памяти сокращено на 30% за счет общего кэширования
📌 Вывод: Pangu Ultra доказывает возможность создания конкурентных LLM без зависимости от западных технологий, открывая новую эру китайского ИИ.
Технический отчет
#КитайскийИИ #КитайAI #Huawei #LLM #БольшиеМодели
🔥 Huawei представила языковую модель Pangu Ultra на 135 млрд параметров
Компания Huawei представила новую версию своей флагманской модели — Pangu Ultra. Это первая в Китае крупномасштабная языковая модель, полностью разработанная и обученная на отечественных чипах Ascend NPU без использования западных технологий.
Главное достижение:
• Модель (135B) превосходит Llama 405B и Mistral Large 2, соответствуя DeepSeek-R1 при меньшем размере
• Обучалась на 8192 NPU Ascend и 13.2 триллионах токенов с уникальными архитектурными решениями
🔍 Технологические инновации:
Стабильность обучения
• DSSN (Depth-scaled sandwich-norm) – новая архитектура нормализации для глубоких моделей
• TinyInit – революционный метод инициализации параметров
Оптимизация данных
• "Умный" токенизатор с 153,376 токенами (охватывает код, математику, языки)
• Трехэтапное обучение: общие знания → логика → специализация
⚡ Рекордные показатели:
- Поддерживает контекст до 128К токенов (~170 тыс. китайских иероглифов)
- Достигла 50% эффективности использования вычислительных ресурсов (MFU) на кластере из 8192 NPU
Технические детали:
• Гибридный параллелизм: 128DP × 8TP × 8PP + виртуальный конвейер
• Оптимизации системы: MC2, NFA, RoPE-операторы
• Потребление памяти сокращено на 30% за счет общего кэширования
📌 Вывод: Pangu Ultra доказывает возможность создания конкурентных LLM без зависимости от западных технологий, открывая новую эру китайского ИИ.
Технический отчет
#КитайскийИИ #КитайAI #Huawei #LLM #БольшиеМодели
GitHub
pangu-ultra/pangu-ultra-report.pdf at main · pangu-tech/pangu-ultra
Contribute to pangu-tech/pangu-ultra development by creating an account on GitHub.
🔥9
Forwarded from Machinelearning
Команда Fundamental AI Research (FAIR) компании Марка Цукерберга представила серию новых разработок: методики и модели, улучшающие компьютерное зрение, 3D-локализацию объектов и совместное обучение языковых агентов. Все модели, техотчеты, датасеты и код этих проектов уже доступны на платформах Hugging Face и GitHub.
Perception Encoder - новый виток развития в сфере обработки визуальной информации. Модель, обученная с помощью этой методики на масштабных данных, превосходит аналоги в задачах классификации изображений и видео, включая сложные сценарии — распознавание ската, зарывшегося в морское дно, или крошечной птицы на заднем плане снимка. Благодаря интеграции с LLM, Encoder улучшает ответы на визуальные вопросы, описание сцен и понимание пространственных отношений между объектами.
Для задач, требующих анализа видео и текста, Meta выпустила Perception Language Model (PLM). Ее обучали на 2,5 млн. новых аннотированных видеозаписей — это крупнейший датасет для понимания действий и контекста в динамике. PLM доступна в трёх вариантах (1, 3 и 8 млрд параметров). Дополнительный бонус — PLM-VideoBench, бенчмарк для оценки тонкого понимания сцен, который заполняет пробелы существующих тестов.
Как заставить робот найти красную чашку на столе или вазу возле телевизора? Locate 3D решает эту задачу через анализ 3D-точечных облаков и текстовых подсказок. Модель учитывает пространственные связи и контекст, отличая «вазу у TV» от «вазы на столе». В основе — трехэтапный пайплайн: предобработка данных, кодирование 3D-сцены и декодирование запроса. Для обучения использовали 130 тыс. аннотаций из ARKitScenes и ScanNet, что вдвое увеличило объём доступных данных для локализации объектов.
Dynamic Byte Latent Transformer - архитектура, которая работает на уровне байтов, а не токенов, что повышает устойчивость к ошибкам, ускоряет обработку и "отменяет" необходимость токенизации для масштабирования. На тесте CUTE модель показывает преимущество в +55 пунктов против традиционных подходов.
Совместное решение задач — следующий этап развития ИИ. Collaborative Reasoner — это фреймворк, где два агента ведут диалог, чтобы прийти к общему решению. Они могут спорить, аргументировать и согласовывать ответы на сложные вопросы. Для обучения используют синтетические диалоги, которые генерирует сама модель. Результаты впечатляют: на некоторых задачах совместная работа даёт прирост эффективности до 29% по сравнению с одиночным агентом.
@ai_machinelearning_big_data
#AI #ML #LLM #CV #NLP #FAIR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥2
Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🚀 Alibaba представил DianJin-R1 — мощную языковую модель для финансовых задач
Команда Alibaba Cloud и Университет Сучжоу разработали инновационную модель с открытым исходным кодом, которая превосходит аналоги в области финансового анализа.
🔍 В двух словах:
- Модель доступна в двух версиях: 7B и 32B параметров
- Обучена на уникальных финансовых датасетах + мультиагентный синтез данных
- Превышает производительность DeepSeek-R1 и QwQ в тестах
📊 Ключевые особенности:
1️⃣Открытые данные и модели:
- Дамп DianJin-R1-Data включает CFLUE, FinQA и CCC (китайская нормативная проверка)
- Модели на Hugging Face, ModelScope и GitHub
2️⃣Технологии обучения:
- Двухэтапная оптимизация: Supervised Fine-Tuning + Reinforcement Learning
- Система вознаграждений за структурированные выводы и точность
3️⃣Мультиагентный синтез:
- Платформа Tongyi Dianjin генерирует сложные финансовые кейсы через взаимодействие ИИ-агентов
⚙️ Технические детали:
• Использованы Qwen2.5-7B/32B-Instruct как база
• GRPO (Group Relative Policy Optimization) для RL-фазы
• Фичинг: 38k+ экзаменационных вопросов (CFLUE) + 8k англоязычных QA (FinQA)
🔥 Результаты тестов:
▫️ DianJin-R1-7B сравним с топовой QwQ при меньших ресурсах
▫️ DianJin-R1-32B лидирует во всех категориях
"Это не просто шаг вперед в финтехе — мы переосмыслили подход к обучению ИИ для регуляторных задач" — команда разработчиков.
Официальный сайт | Hugging Face | GitHub
Подробнее в оригинальной статье.
#КитайскийИИ #КитайAI #FinTech #LLM #OpenSource #Alibaba #Qwen
🚀 Alibaba представил DianJin-R1 — мощную языковую модель для финансовых задач
Команда Alibaba Cloud и Университет Сучжоу разработали инновационную модель с открытым исходным кодом, которая превосходит аналоги в области финансового анализа.
🔍 В двух словах:
- Модель доступна в двух версиях: 7B и 32B параметров
- Обучена на уникальных финансовых датасетах + мультиагентный синтез данных
- Превышает производительность DeepSeek-R1 и QwQ в тестах
📊 Ключевые особенности:
1️⃣Открытые данные и модели:
- Дамп DianJin-R1-Data включает CFLUE, FinQA и CCC (китайская нормативная проверка)
- Модели на Hugging Face, ModelScope и GitHub
2️⃣Технологии обучения:
- Двухэтапная оптимизация: Supervised Fine-Tuning + Reinforcement Learning
- Система вознаграждений за структурированные выводы и точность
3️⃣Мультиагентный синтез:
- Платформа Tongyi Dianjin генерирует сложные финансовые кейсы через взаимодействие ИИ-агентов
⚙️ Технические детали:
• Использованы Qwen2.5-7B/32B-Instruct как база
• GRPO (Group Relative Policy Optimization) для RL-фазы
• Фичинг: 38k+ экзаменационных вопросов (CFLUE) + 8k англоязычных QA (FinQA)
🔥 Результаты тестов:
▫️ DianJin-R1-7B сравним с топовой QwQ при меньших ресурсах
▫️ DianJin-R1-32B лидирует во всех категориях
"Это не просто шаг вперед в финтехе — мы переосмыслили подход к обучению ИИ для регуляторных задач" — команда разработчиков.
Официальный сайт | Hugging Face | GitHub
Подробнее в оригинальной статье.
#КитайскийИИ #КитайAI #FinTech #LLM #OpenSource #Alibaba #Qwen
huggingface.co
DianJin (Qwen DianJin)
Org profile for Qwen DianJin on Hugging Face, the AI community building the future.
❤2👍2
Forwarded from Machinelearning
NeMo-Inspector от NVIDIA — это инструмент, который превращает анализ генераций из рутины в осмысленный процесс. Он не просто показывает результаты, а помогает их систематизировать, сравнивать и даже чистить данные.
NeMo-Inspector не просто просмотрщик логов. Это полноценная среда, где можно менять промпты на лету, маркировать проблемные данные и проверять гипотезы.
Для инженеров, которые хотят не просто получать ответы от LLM, но и понимать, как они рождаются, NeMo-Inspector мастхэв. Он не даст магии, зато сэкономит часы ручного разбора и поможет найти слабые места даже в сложных пайплайнах, а поддержка Markdown, LaTeX и подсветки синтаксиса сделает работу с математическими задачами или кодом менее муторной.
Гибкость проводимого анализа - особенность NeMo-Inspector. Вы можете сравнивать, как одна модель справляется с разными параметрами (температура, top_p) или как разные модели решают одну задачу. Допустим, проверяете, повышает ли CoT точность ответов. NeMo-Inspector выведет результаты бок о бок, а еще посчитает статистику: доля правильных ответов, «уверенность» модели (persistence) или кастомные метрики, которые можно задать самостоятельно через Python-функции.
Из практических кейсов: NeMo-Inspector помог «почистить» синтетический датасет GSM-Plus, где 46,99% данных оказались проблемными (в некоторых вопросах было по два знака вопроса — модель путалась, на какой отвечать). В проекте с OpenMath-Mistral-7B выяснилось, что 26% ошибок связаны с падением качества сгенерированного кода. После доработки датасета точность модели выросла на 4,17%.
@ai_machinelearning_big_data
#AI #ML #LLM #NeMoInspector #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3🔥1