Forwarded from Machinelearning
🚀 Функции MiniMax-Text-01 и MiniMax-VL-01 основаны на ультрасовременной архитектуре "Lightning Attention".
→ В MiniMax-Text-01 реализован гибридный подход, при котором в 7 из каждых 8 слоев используется Lightning Attention, а в одном - SoftMax для улучшения баланса модель.
Такая архитектура позволяет эффективно обрабатывать сверхдлинные последовательности.
→ Версия с открытым исходным кодом включает в себя полный набор весов и API. По цене примерно 0,2 доллара за миллион входных токенов и 1,1 доллара за миллион выходных токенов — вполне конкурентоспособные цены.
На тестах модель превосходит платный Deep Seek v3 ! 💥
→ В задачах с длинным контекстом MiniMax-Text-01 достиг 100% точности в тесте поиска "Needle-in-a-Haystack" с использованием 4 миллионов токенов, превосходя топовые модели в реальных задачах с использованием искусственного интеллекта.
📑Paper:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
📖Read more: https://minimaxi.com/en/news/minimax-01-series-2
@ai_machinelearning_big_data
#llm #MiniMax #ai #agents #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2🔥2
Forwarded from Machinelearning
🥥 Training Large Language Models to Reason in a Continuous Latent Space
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).
Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.
Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем
При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.
В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами
<bot> и <eot>.
Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.
На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.
Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.
Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.
Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов
git clone [email protected]:facebookresearch/coconut.git
cd coconut
▪Github
▪Paper
@ai_machinelearning_big_data
#deeplearning #nlp #reasoning #llm #ml
❤7
Forwarded from Machinelearning
⚡ LitGPT
20+ производительных LLM, написанных с нуля, с подробным описанием, инструкциями, файнтюнигу и деплою.
Особенности:
🟢 Модели написаны с нуля
🟢 Нет абстракций
🟢 Подходит для обучения новичков
🟢 Flash attention
🟢 FSDP
🟢 LoRA, QLoRA, Adapter
🟢 Уменьшение памяти GPU (fp4/8/16/32)
🟢 1-1000+ GPU/TPUs
🟢 20+ LLMs
Установка:
Пример:
▪Github
▪Docs
▪Video
@ai_machinelearning_big_data
#LitGPT #tutorial #llm #ai #ml
20+ производительных LLM, написанных с нуля, с подробным описанием, инструкциями, файнтюнигу и деплою.
Особенности:
Установка:
pip install 'litgpt[all]'
Пример:
from litgpt import LLM
llm = LLM.load("microsoft/phi-2")
text = llm.generate("Fix the spelling: Every fall, the familly goes to the mountains.")
print(text)
# Corrected Sentence: Every fall, the family goes to the mountains.
▪Github
▪Docs
▪Video
@ai_machinelearning_big_data
#LitGPT #tutorial #llm #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥3❤2
Forwarded from Machinelearning
Вот главное:
- Вышло два варианта модели: Grok‑3 mini и полноразмерный Grok‑3.
- Беспрецедентные достижения: Первая модель, преодолевшая 1400 очков, и лидирует по всем категориям на арене.
- Режим рассуждений: Хотя базовая модель не «ризонинг», можно активировать режим рассуждений с двумя настройками –
«Thinking» и «Thinking Hard»
. Процесс рассуждения почти полностью прозрачен.- Выдающаяся производительность: На тестах Math24 hard Grok‑3 показывает результаты лучше, чем R1, o1 и даже o3‑mini high. AIME 24 — 52% [96% с обоснованием!]
GPQA —75% [85%]
Кодинг (LiveCodeBench) — 57% [80%].
- На бенчмарках версия mini сравнима с DeepSeek 3, GPT‑4o и Gemini Pro.
- Новый агент Deep (Re)search: Встроенный инструмент для быстрого интернет-поиска, кросс-валидации источников и корректировки плана, который на демонстрации справился всего за минуту.
https://x.com/i/grok
@ai_machinelearning_big_data
#grok #elonmusk #ai #ml #llm #reasoning #xAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥3❤1
Forwarded from Machinelearning
Instella - полностью опенсорсная модель с 3 млрд. параметров, обученная с нуля на GPU AMD Instinct MI300X. Instella не только превосходит существующие LLM сопоставимого размера, но и показывает конкурентоспособную производительность по сравнению с Llama-3.2-3B, Gemma-2-2B и Qwen-2.5-3B.
Разработка Instella основана на опыте AMD с OLMo, на которой была доказана возможность обучения LLM на стеке AMD. В процессе создания Instella прошлые наработки были масштабированы для создания модели с 3 млрд. параметров. Она обучалась на 128 GPU MI300X с использованием 4,15 трлн. токенов. В процессе применялись методы FlashAttention-2, Torch Compile и FSDP с гибридным шардированием.
Процесс обучения Instella состоял из 4-х этапов, постепенно наращивая возможности модели от базового понимания естественного языка до следования инструкциям и соответствия предпочтениям человека.
Первый этап претрейна задействовал 4 трлн. токенов из набора данных OLMoE-mix-0924 (код, академические тексты, математика и общие знания). Второй этап - 57 млрд. токенов из датасетов Dolmino-Mix-1124 и SmolLM-Corpus (python-edu).
На третьем этапе проводилась SFT модели с использованием 8,9 млрд. токенов текстовых пар "инструкция-ответ". Наконец, для приведения модели в соответствие с предпочтениями человека был выполнен четвертый этап - DPO модели Instella-3B-SFT с использованием 0,76 млрд токенов.
Instella получила 36 слоев, каждый из которых имеет 32 attention heads и поддерживает длину последовательности до 4096 токенов.
Финальный вариант Instella-3B превосходит существующие открытые модели в среднем на 8,08%.
@ai_machinelearning_big_data
#AI #ML #LLM #RoCM #AMD #Instella
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
Forwarded from Machinelearning
ML-комьюнити о крупнейших запусках LLM начала 2025 года:
✔️ DeepSeek — революция или переоцененный запуск?
Запуск китайской модели всколыхнул всю индустрию, вызвав неоднозначную реакцию экспертов. CEO Anthropic Дарио Амодей отмечает, что Claude 3.5 Sonnet, обученный за несколько десятков миллионов долларов, значительно опережает DeepSeek по многим показателям, плюс у модели нет никаких барьеров против генерации чувствительной информации. Демис Хассабис, генеральный директор Google DeepMind, считает DeepSeek лучшей работой китайских исследователей, но не видит в ней новых научных достижений.
✔️ Grok 3 — Маск не дотянул
ИИ-исследователь и профессор Пенсильванского университета Итан Моллик признал, что xAI очень быстро растёт, но Grok 3 пока точно не является лучшей моделью на рынке. Она превосходит некоторые модели OpenAI, но не o3. CTO Caylent Рэнделл Хант обнаружил ряд проблем с Grok 3: уязвимость к джейлбрейкам, неуместную саркастичность, медлительность и частые ошибки в ответах. По его словам, даже простые логические тесты оказались ей не под силу, что делает модель практически бесполезной для бизнес-задач. При этом CEO Replit Амджад Масад назвал Grok 3 передовой моделью и огромным достижением.
✔️ GPT-4.5 — не оправдал ожиданий экспертов
Релиз GPT-4.5 от OpenAI получил смешанные отзывы в профессиональном сообществе. Соучредитель OpenAI и бывший глава Tesla AI Андрей Карпатый отметил, что GPT-4.5 напомнил ему GPT-4 на момент релиза — он увидел потенциал этой модели. В посте на X он сказал, что при использовании GPT-4.5 «всё стало немного лучше, и это здорово, но не совсем так, как можно было бы ожидать». В более резких выражениях высказался известный критик Гэри Маркус, назвавший модель «пустышкой». Генеральный директор Hugging Face Клемент Деланж также остался недоволен, охарактеризовав GPT-4.5 как «так себе» и раскритиковав закрытость исходного кода.
✔️ YandexGPT 5 — что в России?
Виктор Тарнавский, директор по ИИ Т-Банка, отметил, что в Яндексе выложили Lite-версию модели в опенсорс, а пайплайн Pro-версии инициализировали весами от Qwen 2.5. По его мнению, это правильное решение, позволяющее избежать бессмысленной траты ресурсов. При этом, пишет Тарнавский, разработчики делают не файнтюн, а полный цикл обучения модели — просто стартуют претрейн не с нулевых весов. По опубликованным бенчмаркам, модели показывают хорошие результаты. В СМИ также писали, что Яндекс работает над ризонингом. Максим Болотских, директор ИИ в Яков и Партнёры (ex-McKinsey), прокомментировал, что ежегодные совокупные затраты на разработку подобного функционала могут составлять 10 млрд рублей и более, и такого рода модели могут монетизироваться не только классическими подписками B2C пользователей, но и значимо лучше решать задачи В2В-сегмента.
✔️ Gemini 2.0 Flash — лучшее соотношение цена/качество
Релиз Gemini 2.0 Flash от Google получил восторженные отклики экспертов. Тим Брукс, ИИ-исследователь в Google DeepMind, высоко оценил встроенную функцию генерации изображений с возможностью визуальной цепочки рассуждений. Соучредитель и бывший глава Intel AI Райан Карсон назвал модель "умной, быстрой и дешёвой", отметив отличную производительность при тестировании через API. Мэтт Шумер, соучредитель и генеральный директор компании OthersideAI, подчеркнул, что по большинству бенчмарков Gemini 2.0 Flash приближается к Claude 3.5 Sonnet и даже превосходит его в бенчмарке MATH, сохраняя при этом значительное ценовое преимущество.
✔️ Claude 3.7 — достойный шаг вперёд при умеренных затратах
Релиз Claude 3.7 от Anthropic получил преимущественно положительные отзывы экспертов. Сэм Альтман и Дарио Амодей подчеркнули экономическую эффективность разработки — обучение Claude 3.7 Sonnet обошлось лишь в несколько десятков миллионов долларов, что значительно меньше затрат на GPT-4. Артём Санакоев, ИИ-исследователь в Meta Generative AI и автор канала "эйай ньюз", выделил инновационный подход Anthropic к рассуждениям модели — в отличие от конкурентов, Claude использует единую модель без отдельного reasoning тюна.
@ai_machinelearning_big_data
#AI #ML #LLM
Запуск китайской модели всколыхнул всю индустрию, вызвав неоднозначную реакцию экспертов. CEO Anthropic Дарио Амодей отмечает, что Claude 3.5 Sonnet, обученный за несколько десятков миллионов долларов, значительно опережает DeepSeek по многим показателям, плюс у модели нет никаких барьеров против генерации чувствительной информации. Демис Хассабис, генеральный директор Google DeepMind, считает DeepSeek лучшей работой китайских исследователей, но не видит в ней новых научных достижений.
ИИ-исследователь и профессор Пенсильванского университета Итан Моллик признал, что xAI очень быстро растёт, но Grok 3 пока точно не является лучшей моделью на рынке. Она превосходит некоторые модели OpenAI, но не o3. CTO Caylent Рэнделл Хант обнаружил ряд проблем с Grok 3: уязвимость к джейлбрейкам, неуместную саркастичность, медлительность и частые ошибки в ответах. По его словам, даже простые логические тесты оказались ей не под силу, что делает модель практически бесполезной для бизнес-задач. При этом CEO Replit Амджад Масад назвал Grok 3 передовой моделью и огромным достижением.
Релиз GPT-4.5 от OpenAI получил смешанные отзывы в профессиональном сообществе. Соучредитель OpenAI и бывший глава Tesla AI Андрей Карпатый отметил, что GPT-4.5 напомнил ему GPT-4 на момент релиза — он увидел потенциал этой модели. В посте на X он сказал, что при использовании GPT-4.5 «всё стало немного лучше, и это здорово, но не совсем так, как можно было бы ожидать». В более резких выражениях высказался известный критик Гэри Маркус, назвавший модель «пустышкой». Генеральный директор Hugging Face Клемент Деланж также остался недоволен, охарактеризовав GPT-4.5 как «так себе» и раскритиковав закрытость исходного кода.
Виктор Тарнавский, директор по ИИ Т-Банка, отметил, что в Яндексе выложили Lite-версию модели в опенсорс, а пайплайн Pro-версии инициализировали весами от Qwen 2.5. По его мнению, это правильное решение, позволяющее избежать бессмысленной траты ресурсов. При этом, пишет Тарнавский, разработчики делают не файнтюн, а полный цикл обучения модели — просто стартуют претрейн не с нулевых весов. По опубликованным бенчмаркам, модели показывают хорошие результаты. В СМИ также писали, что Яндекс работает над ризонингом. Максим Болотских, директор ИИ в Яков и Партнёры (ex-McKinsey), прокомментировал, что ежегодные совокупные затраты на разработку подобного функционала могут составлять 10 млрд рублей и более, и такого рода модели могут монетизироваться не только классическими подписками B2C пользователей, но и значимо лучше решать задачи В2В-сегмента.
Релиз Gemini 2.0 Flash от Google получил восторженные отклики экспертов. Тим Брукс, ИИ-исследователь в Google DeepMind, высоко оценил встроенную функцию генерации изображений с возможностью визуальной цепочки рассуждений. Соучредитель и бывший глава Intel AI Райан Карсон назвал модель "умной, быстрой и дешёвой", отметив отличную производительность при тестировании через API. Мэтт Шумер, соучредитель и генеральный директор компании OthersideAI, подчеркнул, что по большинству бенчмарков Gemini 2.0 Flash приближается к Claude 3.5 Sonnet и даже превосходит его в бенчмарке MATH, сохраняя при этом значительное ценовое преимущество.
Релиз Claude 3.7 от Anthropic получил преимущественно положительные отзывы экспертов. Сэм Альтман и Дарио Амодей подчеркнули экономическую эффективность разработки — обучение Claude 3.7 Sonnet обошлось лишь в несколько десятков миллионов долларов, что значительно меньше затрат на GPT-4. Артём Санакоев, ИИ-исследователь в Meta Generative AI и автор канала "эйай ньюз", выделил инновационный подход Anthropic к рассуждениям модели — в отличие от конкурентов, Claude использует единую модель без отдельного reasoning тюна.
@ai_machinelearning_big_data
#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🥰1
Forwarded from Machinelearning
Традиционные модели для поиска информации часто проваливаются в задачах, где нужны глубокие рассуждения: короткие фактологические запросы и простые документы из обучающих данных не учат их работать с многошаговыми вопросами.
ReasonIR был создан, чтобы решить эту проблему через синтетическую генерацию данных. Авторы создали ReasonIR-Synthesizer — пайплайн, который генерирует сложные запросы и «ложные» документы, похожие на полезные, но бесполезные на деле. Это заставляет модель учиться отличать настоящие паттерны, а не хвататься за поверхностные совпадения.
Для обучения тестовой модели ReasonIR-8B использовали контрастивное обучение с «хард негативами» (документами, которые кажутся релевантными, но таковыми не являются). Под капотом — доработанная LLama3.1-8B с двунаправленной маской внимания, обученная на смеси публичных данных (1,3 млн. примеров) и синтетики (около 345 тыс.).
На бенчмарке BRIGHT, (задачи из биологии, экономики и программирования), ReasonIR-8B показала 29.9 nDCG@10 без реранкера и 36.9 — с ним. Для сравнения: BM25, классический алгоритм, дает всего 14.8.
В RAG-сценариях модель подняла точность на MMLU на 6.4%, а на GPQA — на 22.6%, обогнав даже поисковик you.com. Причем чем детальнее переписывался запрос (например, добавлением контекста через GPT-4), тем лучше работала модель — другие ретриверы на длинных запросах «задыхались».
Авторы также оптимизировали вычисления: модель обходит LLM-реранкеры в 200 раз по эффективности, экономя ресурсы без потерь в качестве.
from transformers import AutoModel, AutoTokenizer
model = AutoModel.from_pretrained("reasonir/ReasonIR-8B", torch_dtype="auto", trust_remote_code=True)
query = "The quick brown fox jumps over the lazy dog."
document = "The quick brown fox jumps over the lazy dog."
query_instruction = ""
doc_instruction = ""
model = model.to("cuda")
model.eval()
query_emb = model.encode(query, instruction=query_instruction)
doc_emb = model.encode(document, instruction=doc_instruction)
sim = query_emb @ doc_emb.T
@ai_machinelearning_big_data
#AI #ML #LLM #ReasonIR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3🔥1
Forwarded from Machinelearning
ZeroSearch — фреймворк на базе RL от Alibaba, который учит языковые модели искать данные, вообще не подключаясь к реальным поисковым системам.
Пайплайн ZeroSearch начинается с тонкой настройки (SFT): модель учат генерировать документы, похожие на вывод реального поисковика. Через промпты вида «создай пять полезных/мусорных документов» LLM осваивает 2 режима: релевантные ответы с правильными фактами и «мусор» с случайной информацией.
Дальше в дело вступает RL. Модель-агент взаимодействует с этим «виртуальным поисковиком»: сначала рассуждает в тегах <think>, затем генерирует поисковые запросы через <search>, а получив смоделированные документы, формирует окончательный ответ в <answer>.
Сквозь весь процесс происходит поэтапное усложнение. В начале тренировки 90% документов чистые, чтобы агент освоил базовую логику. С каждым шагом доля шума растет по специальной формуле: через 200 итераций вероятность получить бесполезный документ увеличивается вчетверо.
Это заставляет модель учиться фильтровать информацию даже в условиях хаоса. Чтобы избежать «смешивания» собственных выводов агента и сгенерированных документов, в градиентах маскируются токены чужих ответов — так фокус остается на улучшении стратегии поиска, а не на подгонке под шум.
На выходе получается автономный агент, который не просто ищет, но и учится когда искать, как формулировать запросы и что игнорировать. И все это без единого реального API, только симуляция и математика.
Итоги экспериментальных тестов выглядят позитивными. На датасете NQ ZeroSearch с моделью Qwen-2.5-7B-Instruct показала 43.24% точности (EM), оставляя позади Search-R1 с его 41.46%, хотя последний использует реальный Google. Для многосложных вопросов в HotpotQA разрыв еще заметнее: 29.21% против 34.55% у конкурента.
Но главное, 14B-версия модели превосходит живой поисковик по среднему показателю на 33.97% против 32.47% у Google. Интересно еще и то, как масштаб влияет на результат: 3B модель дает 33.97% точности, 7B — 38.61%, а 14B — уже 40.54%.
⚠️ В промпте к этим моделям необходимо добавить метки
[useful]
или [noisy]
. В инференсе модель возвращает 5 документов заданного типа.@ai_machinelearning_big_data
#AI #ML #LLM #ZeroSearch #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥2
🔊 Ke-Omni-R-3B
👉 Открытая модель, которая понимает аудио и отвечает на вопросы по аудио.
🏆 Лидирует на бенчмарках аудиорассуждений.
📌 Построена на базе Qwen 3B.
🎥 Omni-R1
👉 Модель для видеоанализа, которая "смотрит" на видео и рассуждает на уровне каждого пикселя.
⚔️ Уже конкурирует с лучшими проприетарными решениями.
📌 Построена на Qwen 7B.
💡 Qwen2.5 - основа для мультимодального ИИ: текст + аудио + видео.
Если ты делаешь проекты в этой сфере — обязательно посмотри, что уже делают на базе Qwen.
#Qwen #AI #Multimodal #HuggingFace #OpenSource #LLM
📎 Модель: https://huggingface.co/KE-Team/Ke-Omni-R-3B
👉 Открытая модель, которая понимает аудио и отвечает на вопросы по аудио.
🏆 Лидирует на бенчмарках аудиорассуждений.
📌 Построена на базе Qwen 3B.
🎥 Omni-R1
👉 Модель для видеоанализа, которая "смотрит" на видео и рассуждает на уровне каждого пикселя.
⚔️ Уже конкурирует с лучшими проприетарными решениями.
📌 Построена на Qwen 7B.
💡 Qwen2.5 - основа для мультимодального ИИ: текст + аудио + видео.
Если ты делаешь проекты в этой сфере — обязательно посмотри, что уже делают на базе Qwen.
#Qwen #AI #Multimodal #HuggingFace #OpenSource #LLM
📎 Модель: https://huggingface.co/KE-Team/Ke-Omni-R-3B
❤3👍1
🎓 Хочешь разобраться в MCP (Model Context Protocol)? Вот с чего начать:
1️⃣ Курс от Hugging Face
Пошаговое введение в MCP и как он работает внутри LLM-экосистем
→ huggingface.co/learn/mcp-course
2️⃣ Курс от Microsoft
Практический гайд для новичков — с кодом, примерами и понятным объяснением
→ github.com/microsoft/mcp-for-beginners
3️⃣ Workshop
Онлайн-интенсив "MCP Fundamentals" — 25 июня, регистрация уже открыта
→ epicai.pro/events/workshop-mcp-fundamentals-2025-06-25
📦 MCP — это новый стандарт, который скоро будет везде: от агентов до LLM-интерфейсов. Самое время разобраться.
#MCP #AI #LLM #MachineLearning #Courses #DevTools
1️⃣ Курс от Hugging Face
Пошаговое введение в MCP и как он работает внутри LLM-экосистем
→ huggingface.co/learn/mcp-course
2️⃣ Курс от Microsoft
Практический гайд для новичков — с кодом, примерами и понятным объяснением
→ github.com/microsoft/mcp-for-beginners
3️⃣ Workshop
Онлайн-интенсив "MCP Fundamentals" — 25 июня, регистрация уже открыта
→ epicai.pro/events/workshop-mcp-fundamentals-2025-06-25
📦 MCP — это новый стандарт, который скоро будет везде: от агентов до LLM-интерфейсов. Самое время разобраться.
#MCP #AI #LLM #MachineLearning #Courses #DevTools
👍7❤2🥰1
Forwarded from Machinelearning
SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.
SEAL, по сути, это два разделенных цикла:
Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.
SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.
Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.
В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.
Метод скорее академический и по большей части экспериментальный, у него есть ограничения:
@ai_machinelearning_big_data
#AI #ML #LLM #SEAL #RL #MiT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2🔥1🥰1
⚡ Google представила Gemini 2.5 Flash Lite — самую быструю и дешёвую модель из всей линейки
💸 Минимальные затраты, максимум скорости:
• Обработать все книги "Гарри Поттера" — всего за $0.22
• Проанализировать 3‑часовое видео — меньше $0.35
🧠 Активация режима *thinking mode* даёт дополнительную точность и контекстное понимание.
📦 Модель уже доступна для тестов и внедрения — отличное решение для быстрой генерации, извлечения информации и масштабных задач без лишних затрат.
Модель Gemini 2.5 Flash Lite уже доступна в Google AI Studio
Как попробовать:
1️⃣ Перейди на: https://aistudio.google.com/prompts/new_chat
2️⃣ В списке моделей выбери "Gemini 2.5 Flash Lite Preview 06-17"
3️⃣ Введи текст, аудио или видео-промпт — и запускай!
🧠 В боковой панели можно сразу включить "Thinking mode" — он улучшает логику и глубину ответов.
Моментальный доступ к одной из самых быстрых и дешёвых моделей Google.
#GeminiFlashLite #GoogleAI #AIStudio #LLM #PromptEngineering
💸 Минимальные затраты, максимум скорости:
• Обработать все книги "Гарри Поттера" — всего за $0.22
• Проанализировать 3‑часовое видео — меньше $0.35
🧠 Активация режима *thinking mode* даёт дополнительную точность и контекстное понимание.
📦 Модель уже доступна для тестов и внедрения — отличное решение для быстрой генерации, извлечения информации и масштабных задач без лишних затрат.
Модель Gemini 2.5 Flash Lite уже доступна в Google AI Studio
Как попробовать:
1️⃣ Перейди на: https://aistudio.google.com/prompts/new_chat
2️⃣ В списке моделей выбери "Gemini 2.5 Flash Lite Preview 06-17"
3️⃣ Введи текст, аудио или видео-промпт — и запускай!
🧠 В боковой панели можно сразу включить "Thinking mode" — он улучшает логику и глубину ответов.
Моментальный доступ к одной из самых быстрых и дешёвых моделей Google.
#GeminiFlashLite #GoogleAI #AIStudio #LLM #PromptEngineering
👍7❤4🔥1
Forwarded from Machinelearning
Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.
Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.
Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.
Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:
В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».
При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.
@ai_machinelearning_big_data
#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3👍2😱2
Forwarded from Machinelearning
🚀 Парадигма меняется: Polaris выводит локальные модели на новый уровень
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM
🔥7❤5👍4🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥🔥 VideoPrism от GoogleDeepMind — универсальный видеоэнкодер нового поколения
Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.
🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели
Все модели доступны под лицензией A2.0
Установка:
• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/
#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal
Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.
🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели
Все модели доступны под лицензией A2.0
Установка:
$ git clone https://github.com/google-deepmind/videoprism.git
$ cd videoprism
$ pip install .
• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/
#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal
🔥3
Forwarded from Machinelearning
Это модель, которая не просто доказывает теоремы, а учится на своих ошибках.
Kimina-Prover-72B создана на базе Qwen2.5-72B, которая бьет рекорды в формальной математике на Lean 4 и ее облегченные версии 8 и 1,7 миллиарда параметров.
Numina - это некоммерческая научная коллаборация, ориентированная на развитие ИИ в области математики. Ее миссия: создание и публикация обширных баз данных математических задач, разработку open-source ИИ-решателя для их обработки и инструментов для поддержки совместной работы людей и ИИ в фундаментальных науках.
На популярном бенчмарке miniF2F Kimina-Prover-72B достигла внушительной точности в 92.2%, оставив позади Deepseek-Prover-V2 671B.
Вместо того чтобы пытаться решить сложную задачу в лоб, система научилась декомпозировать ее. Она самостоятельно генерирует, комбинирует и применяет промежуточные утверждения, или леммы, выстраивая из них длинные логические цепочки. По сути, это рекурсивный поиск: для доказательства основной теоремы модель может сначала доказать несколько вспомогательных лемм.
Система отслеживает «рейтинг полезности» каждой леммы и отбраковывает те, что ведут в тупик. Вторым эшелоном идет механизм проверки на вменяемость. Прежде чем использовать новую лемму, модель пытается доказать ее отрицание. Если это удается, значит, лемма противоречива и ее сразу выбрасывают. Такая комбинация гарантирует логическую строгость и надежность всего доказательства.
В отличие от других систем, которые в случае неудачи просто начинают заново, Kimina-Prover умеет читать сообщения об ошибках от компилятора Lean и предлагать исправления.
Для этого ее специально дообучали на датасете из комбинаций «неверное доказательство – фидбэк – верное доказательство». Чтобы обучение шло стабильно, использовали стратегию Batched Failure Replay: все неудачные попытки с одной итерации собираются и используются как обучающий батч для следующей. И это оказалось куда эффективнее, чем бездумный перебор вариантов при том же бюджете вычислений.
@ai_machinelearning_big_data
#AI #ML #LLM #TTRL #Reasoning #KiminaProver
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2
Forwarded from Machinelearning
MUVERA - алгоритм, разработанный Google Research, который сводит сложную задачу многовекторного поиска обратно к простому и быстрому MIPS, как в подходах с одним вектором.
Суть проста: вместо того чтобы работать с громоздким набором векторов, MUVERA сжимает его в единый вектор фиксированной длины, так называемый Fixed Dimensional Encoding (FDE). Главный трюк в том, что скалярное произведение этих новых FDE-векторов очень точно аппроксимирует исходную, «честную» метрику Чамфера.
На практике процесс выглядит как двухэтапный конвейер. Сначала MUVERA генерирует FDE для всех документов в базе и индексирует их с помощью обычного MIPS-солвера. Когда приходит запрос, для него тоже создается FDE, и система молниеносно находит небольшой список кандидатов. А уже затем этот короткий список переранжируется с использованием оригинальной, медленной, но точной метрики Чамфера. На выходе получаем и скорость, и качество.
В практическом сравнении с предыдущим SOTA методом PLAID, MUVERA показывает в среднем на 10% более высокую полноту выдачи при сокращении задержки на 90%. Чтобы достичь того же качества, алгоритму требуется отобрать в 5-20 раз меньше кандидатов для финального переранжирования.
Более того, эти FDE-векторы отлично сжимаются — до 32 раз с минимальной потерей качества.
Для тех. кто хочет попробовать, в репозитории проекта на Github есть реализации MUVERA на Python и C++ .
@ai_machinelearning_big_data
#AI #ML #LLM #MUVERA #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥2
Forwarded from Machinelearning
China Telecom совместно с TeleAI спроектировали фреймворк AI Flow, который рассматривает ИИ и сети передачи данных как единую систему.
AI Flow - это не просто очередной метод оптимизации, а цельная парадигма. Она предлагает отойти от идеи монолитного ИИ к распределенному и коллаборативному, где интеллект может перетекать по сети туда, где он в данный момент нужнее всего и где для него есть ресурсы.
Идея в том, чтобы разумно распределять нагрузку: простейшие операции выполняются на самом гаджете, более сложные и требующие низкой задержки — на ближайшем edge-сервере, а самое тяжелые задачи и ресурсоемкий инференс остаются в облаке.
AI Flow предлагает конкретные механизмы для такой концепции - спекулятивное декодирование, где легкая модель на устройстве быстро генерирует черновик ответа, а мощная модель на эдже его лишь верифицирует и корректирует.
Это не просто набор моделей разного размера, а целое семейство с архитектурно согласованными скрытыми представлениями.
Маленькая, средняя и большая модели устроены настолько похоже, что они могут бесшовно передавать друг другу эстафету инференса.
Модель на смартфоне обрабатывает первые несколько слоев, а затем ее промежуточный результат подхватывает модель на сервере и продолжает вычисления ровно с того же места, без какого-либо дополнительного преобразования данных.
Пайплайн AI Flow делает возможным взаимодействие разных моделей, от LLM и VLM до диффузионных генераторов.
Через такую коллаборацию рождается эмерджентный интеллект – коллективная интуиция, превышающая возможности отдельных сетей, где несколько агентов генерируют черновые решения, затем сервер-оркестратор выбирает лучшие фрагменты, объединяет их и возвращает итоговый ответ для уточнения с учетом контекста каждого из них.
В этом и фишка: после такой синергии ответ становится богаче и более осмысленным, ведь сходятся разные точки зрения и узкопрофильные знания моделей-участников.
Ее крупнейшая ветвь содержит 7 млрд. параметров и способна порождать early-exit подсети с эффективным числом параметров в 3, 4, 5 и 6 млрд:
@ai_machinelearning_big_data
#AI #ML #LLM #AIFlow #TeleAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3
Forwarded from Machinelearning
🚀 Tencent расширяет экосистему Hunyuan LLM и выкладывают в открытый доступ еще 4 компактных моделей — 0.5B, 1.8B, 4B и 7B!
Эти модели заточены под low-power устройства: ПК, смартфоны, авто, умные дома и пользовательские GPU.
Модели легко настраиваются под вертикальные задачи и запускаются даже на одной карте.
💡 Особенности:
✅ Fast/slow thinking режимы: лаконичные или глубокие ответы
✅ 256K контекст и продвинутые агентные способности (tool use, планирование, reasoning)
✅ Хорошие метрики на тестах по языку, математике и логике
✅ Модели готовы к продакшену — работают с SGLang, vLLM, TensorRT-LLM
🖥 GitHub:
- 0.5B: https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
- 1.8B: https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
- 4B: https://github.com/Tencent-Hunyuan/Hunyuan-4B
- 7B: https://github.com/Tencent-Hunyuan/Hunyuan-7B
🤗 Hugging Face:
- 0.5B: https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
- 1.8B: https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
- 4B: https://huggingface.co/tencent/Hunyuan-4B-Instruct
- 7B: https://huggingface.co/tencent/Hunyuan-7B-Instruct
🔗 Подробнее: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#Tencent #Hunyuan #ml #llm #ai #opensource
Эти модели заточены под low-power устройства: ПК, смартфоны, авто, умные дома и пользовательские GPU.
Модели легко настраиваются под вертикальные задачи и запускаются даже на одной карте.
💡 Особенности:
✅ Fast/slow thinking режимы: лаконичные или глубокие ответы
✅ 256K контекст и продвинутые агентные способности (tool use, планирование, reasoning)
✅ Хорошие метрики на тестах по языку, математике и логике
✅ Модели готовы к продакшену — работают с SGLang, vLLM, TensorRT-LLM
- 0.5B: https://github.com/Tencent-Hunyuan/Hunyuan-0.5B
- 1.8B: https://github.com/Tencent-Hunyuan/Hunyuan-1.8B
- 4B: https://github.com/Tencent-Hunyuan/Hunyuan-4B
- 7B: https://github.com/Tencent-Hunyuan/Hunyuan-7B
🤗 Hugging Face:
- 0.5B: https://huggingface.co/tencent/Hunyuan-0.5B-Instruct
- 1.8B: https://huggingface.co/tencent/Hunyuan-1.8B-Instruct
- 4B: https://huggingface.co/tencent/Hunyuan-4B-Instruct
- 7B: https://huggingface.co/tencent/Hunyuan-7B-Instruct
🔗 Подробнее: https://hunyuan.tencent.com/modelSquare/home/list
@ai_machinelearning_big_data
#Tencent #Hunyuan #ml #llm #ai #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3🔥2