Forwarded from Анализ данных (Data analysis)
Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.
📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями
И всё это — с усложнением.
💥 Результаты:
— 🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.
— 🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.
— 🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.
— 🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.
— 🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.
🧠 Почему LLM не справляются с Ханойскими башнаями при большом числе дисков
Модели вроде Sonnet 3.7, DeepSeek R1 и o3-mini не могут правильно решать башни Ханоя, если дисков больше 13 — и вот почему:
📏 Немного математики:
• Чтобы решить башни Ханоя, нужно минимум 2ⁿ − 1 ходов
• Один ход — это примерно 10 токенов (формат: «переместить диск X с A на B»)
• А значит, для 15 дисков нужно ~**327,670 токенов** только на вывод шагов
🧱 Лимиты моделей:
| Модель | Лимит токенов | Макс. число дисков (без размышлений) |
|--------------|----------------|---------------------------------------|
| DeepSeek R1 | 64k | 12
| o3-mini | 100k | 13
| Sonnet 3.7 | 128k | 13
И это без учёта reasoning (внутренних размышлений), которые модель делает перед финальным ответом.
🔍 Что реально происходит:
• Модели не могут вывести все шаги, если дисков слишком много
• При >13 дисках они просто пишут что-то вроде:
> *"Из-за большого количества шагов я опишу метод, а не приведу все 32 767 действий..."*
• Некоторые модели (например, Sonnet) перестают "думать" уже после 7 дисков — они просто описывают алгоритм и переходят к финальному ответу без вычислений
🎲 А теперь представим, что модель угадывает каждый шаг с точностью 99.99%
На задаче с 15 дисками (32767 ходов) ошибка почти неизбежна — чистая математика:
даже 0.01% ошибок на токенах *экспоненциально* накапливаются
🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔
📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
@data_analysis_ml
#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥5👍4
Forwarded from Machinelearning
Goodfire AI, вдохновившись примером Anthropic в интерпретации внутренних процессов Claude, воспроизвели методы трассировки цепей межслойных транскодеров (Cross-Layer Transcoders, CLT) на GPT-2 Small, чтобы проверить их способность раскрывать известные механизмы трансформеров.
Выбор на GPT-2 Small пал не случайно, эта модель небольшая и уже была ранее подвергнута ручному реверс-инжинирингу.
Cross-Layer Transcoders выжимают из модели разреженные признаки, которые объясняют работу MLP-слоев. Визуализируют это через графы атрибуции — это карты влияния признака на выход модели.
Натренировали на 100M токенов из FineWeb, получили ~590K признаков. Точность CLT-реплики модели составила 59%, что близко к оригинальным статьям. Тестировали на задаче сравнения чисел («больше, чем»), идеальном полигоне, где уже известны ключевые механизмы.
Задача "Больше, чем" (ориг. "greater-than") взята из статьи Michael Hanna, она заставляет предсказывать большие числа для второго года в диапазоне дат.
Промпт «The war lasted from the year 1711 to 17». CLT построил граф, где признаки с токена «11» (последняя цифра года) активнее всего влияли на предсказание.
Дальше, выделили топ-160 признаков, для каждого построили логит-атрибуции — теплокарты, показывающие, как признак влияет на выходные годы (ZZ) при разных входных (YY).
Похоже, CLT подсветил кучу узкоспециализированных «сравнивателей», а не универсальные нейроны, как в ручных исследованиях.
CLT автоматически находит интерпретируемые признаки, даже такие неочевидные, как абстрактная четность. Но их «разреженный» мир выглядит иначе, чем ручная трассировка цепей: тут больше узких признаков-«спецов» (Feature 461858 для диапазона 10–30) и меньше универсальных механизмов.
Возможно, дело в методе: CLT смотрит изолированные вклады фич, а в полной модели они взаимодействуют.
В общем, эксперименты с CLT показал, что под капотом языковых моделей не только четкие «сравниватели чисел», но и куча скрытых паттернов вроде детекторов контраста или любителей чисел, кратных 5. И да, полуавтономный анализ иногда видит то, что люди упускают.
@ai_machinelearning_big_data
#AI #ML #LLM #Research #CLT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤3🔥1😐1
Forwarded from Machinelearning
MiniMax-M1 — первая в мире open-weight гибридная reasoning‑LLM c 1M контекстом (8× DeepSeek R1) и гибридной архитектурой MoE + lightning attention.
• 456 млрд параметров (45,9 млрд активируются на токен), сверхэффективная генерация — 25% FLOPs DeepSeek R1 на 100K токенов
• Обучение через RL с новым алгоритмом CISPO, решающим реальные задачи от математики до кодинга
• На обучение было потрачено $534K, две версии — 40K/80K “thinking budget”
• Обходит DeepSeek R1 и Qwen3-235B на бенчмарках по математике и кодингу,
• Топ результат на задачах для software engineering и reasoning
Бенчмарки:
AIME 2024: 86.0 (M1-80K) vs 85.7 (Qwen3) vs 79.8 (DeepSeek R1)
SWE-bench Verified: 56.0 vs 34.4 (Qwen3)
OpenAI-MRCR (128k): 73.4 vs 27.7 (Qwen3)
TAU-bench (airline): 62.0 vs 34.7 (Qwen3)
LongBench-v2: 61.5 vs 50.1 (Qwen3)
▪Hugging Face: https://huggingface.co/collections/MiniMaxAI/minimax-m1-68502ad9634ec0eeac8cf094
▪GitHub: https://github.com/MiniMax-AI/MiniMax-M1
▪Tech Report: https://github.com/MiniMax-AI/MiniMax-M1/blob/main/MiniMax_M1_tech_report.pdf
@ai_machinelearning_big_data
#llm #reasoningmodels #minimaxm1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥6👍3
Publication: https://arxiv.org/abs/2506.01963
Original post in Russian: https://yangx.top/Fourier_series/416
P.S. Fourier Series (@Fourier_series) is a great channel, get serialized! Fourier Transform is for the best!
#LLM #nn
Original post in Russian: https://yangx.top/Fourier_series/416
P.S. Fourier Series (@Fourier_series) is a great channel, get serialized! Fourier Transform is for the best!
#LLM #nn
arXiv.org
Breaking Quadratic Barriers: A Non-Attention LLM for Ultra-Long...
We present a novel non attention based architecture for large language models (LLMs) that efficiently handles very long context windows, on the order of hundreds of thousands to potentially...
Forwarded from Machinelearning
🚀 Парадигма меняется: Polaris выводит локальные модели на новый уровень
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM
Polaris — это набор простых, но мощных приёмов, который позволяет даже компактным LLM (4 B, 7 B) догнать и превзойти «тяжеловесов» на задачах рассуждения (открытая 4B модель превосходи Claude-4-Opus).
Вот как это работает и почему важно:
• Управление сложностью данных
– Генерируем несколько (например, 8) вариантов решения от базовой модели
– Оцениваем, какие примеры слишком простые (8/8) или слишком сложные (0/8), и убираем их
– Оставляем «умеренные» задачи с правильными решениями в 20–80 % случаев, чтобы быть ни слишком лёгкими, ни слишком сложными
• Разнообразие «прогонов» (rollout-ов)
– Мы запускаем модель несколько раз на одной и той же задаче и смотрим, как меняются её рассуждения: одни и те же входные данные, но разные «пути» к решению.
– Считаем, насколько разнообразны эти пути (т. е. их «энтропия»): если модели всё время идут по одной линии, новых идей не появляется; если слишком хаотично — рассуждения неустойчивы.
– Задаём начальную “температуру” генерации там, где баланс между стабильностью и разнообразием оптимален, а затем постепенно её повышаем, чтобы модель не застревала на одних и тех же шаблонах и могла исследовать новые, более креативные ходы.
• “Train-short, generate-long”
– Во время RL-обучения используем короткие цепочки рассуждений (короткие CoT) для экономии ресурсов
– На inference увеличиваем длину CoT, чтобы получить более детальные и понятные объяснения без накрутки стоимости обучения
• Динамическое обновление датасета
– По мере роста точности удаляем примеры с accuracy > 90 %, чтобы не «портить» модель слишком лёгкими задачами
– Поддерживаем постоянный вызов модели на её пределе возможностей
• Улучшенная reward-функция
– Комбинируем стандартный RL-reward с бонусами за разнообразие и глубину рассуждений
– Это позволяет модели учиться не только давать правильный ответ, но и объяснять логику своих решений
Преимущества Polaris
• Благодаря Polaris даже компактные LLM (4 B и 7 B) достигают и даже «тяжеловесов» (32 B–235 B) на AIME, MATH и GPQA
• Обучение на доступных GPU уровня consumer-grade — до 10× экономии ресурсов и затрат по сравнению с традиционными RL-пайплайнами
• Полный открытый стек: исходники, подборка данных и веса
• Простота и модульность: готовый к использованию фреймворк для быстрого внедрения и масштабирования без дорогостоящей инфраструктуры
Polaris доказывает, что качество данных и грамотная настройка RL-процесса важнее просто «больших моделей». С ним вы получите продвинутую reasoning-LLM, которую можно запустить локально и масштабировать везде, где есть обычная GPU.
▪Blog post: https://hkunlp.github.io/blog/2025/Polaris
▪Model: https://huggingface.co/POLARIS-Project
▪Code: https://github.com/ChenxinAn-fdu/POLARIS
▪Notion: https://honorable-payment-890.notion.site/POLARIS-A-POst-training-recipe-for-scaling-reinforcement-Learning-on-Advanced-ReasonIng-modelS-1dfa954ff7c38094923ec7772bf447a1
@ai_machinelearning_big_data
#ml #ai • #Polaris #PostTraining #ReinforcementLearning #LLM
🔥10👍3❤2
Forwarded from Machinelearning
Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код.
В качестве задачи был взят реальный проект NanoGPT, где сообщество энтузиастов соревнуется в максимальном ускорении обучения GPT-2, небольшой языковой модели. Цель - не просто скопировать, а понять и применить конкретную оптимизацию, которую до этого внедрил человек.
ИИ-агенту дают исходный скрипт предыдущего рекордсмена и подсказку одного из 3 уровней: от псевдокода с описанием изменений до полноценной мини-статьи, объясняющей суть улучшения. Агент, получив эти данные, должен внести правки в код так, чтобы приблизиться к скорости обучения следующего рекордсмена.
Эффективность мерили метрикой FSR (Fraction of Speedup Recovered), это доля восстановленного ускорения. Если человек ускорил процесс на 10 минут, а ИИ смог добиться ускорения в 5 минут, его результат — 50% FSR. Такая система позволяет оценить не абстрактные способности модели, а ее умение работать с конкретными, практическими задачами по оптимизации.
Итоги оказались, мягко говоря, отрезвляющими. Даже топовые модели (Claude 3.7 Sonnet и Gemini 2.5 Pro), показали очень скромные результаты.
С лучшими подсказками (псевдокод и детальное описание) самые успешные агенты с трудом смогли воспроизвести хотя бы 40% от прироста производительности, достигнутого человеком. Без подсказок их производительность была и вовсе близка к нулю.
Разбор полетов бенчмарка показал, что ИИ-агенты часто генерируют либо просто неработающий код с ошибками времени выполнения, либо код, который компилируется, но не дает никакого прироста скорости, а иногда даже замедляет процесс.
Авторы не просто опубликовали статью, а выложили весь фреймворк в открытый доступ, так что любой желающий может самостоятельно погонять практически любые модели.
В основе фреймворка лежит гибкий агентский каркас, который имитирует рабочий процесс исследователя: генерация идеи, реализация в коде, запуск эксперимента и анализ результатов.
Каждая итерация ИИ-агента аккуратно сохраняется в отдельную версию, создавая полную историю всех правок, от удачных до провальных.
Установка максимально проста, а для тех, кто хочет воспроизвести эксперименты из статьи, авторы приложили готовые скрипты. Также можно легко добавить и протестировать другие модели, просто создав для них конфиг или дать ИИ другую задачу, не связанную с NanoGPT - определять кастомные таски тоже можно.
@ai_machinelearning_big_data
#AI #ML #LLM #Benchmark
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤3🔥2
Forwarded from Machinelearning
Исследователи из из Гонконгского университета и инженеры Alibaba научили LLM генерировать семантически разные ответы, заставляя их «думать» в ортогональных направлениях.
Наверняка каждый, кто работает с LLM, сталкивался с их любовью к самоповторам. Запрашиваешь несколько вариантов решения, а получаешь одну и ту же мысль, просто перефразированную.
Стандартные подходы к декодированию,
temperature sampling
или diverse beam search
, создают лишь лексическое разнообразие, но пасуют, когда требуется семантическое. Это серьезная проблема для Best-of-N или RLHF. Ведь без по-настоящему разных идей и подходов к решению задачи эти методы теряют свою силу: выбирать лучший вариант не из чего, а обучать модель на однотипных примерах неэффективно.Решение предложили в методе SemDiD (Semantic-guided Diverse Decoding). Его суть, если кратко, перестать играть с токенами на поверхности и начать управлять генерацией напрямую в пространстве эмбеддингов.
Сначала, на старте, он принудительно направляет разные группы beams по ортогональным векторам в семантическом пространстве. Грубо говоря, это как дать команду разным поисковым группам двигаться строго на север, юг и запад, чтобы они гарантированно разошлись.
По мере генерации, когда жесткие директивы могут стать неоптимальными, включается второй механизм -
inter-group repulsion
. Он просто следит, чтобы смысловые траектории ответов не сближались, сохраняя их уникальность до самого конца.Но как, гоняясь за разнообразием, не получить на выходе бессвязный бред?
SemDiD подходит к контролю качества уникально. Он не пытается слепо максимизировать вероятность последовательности, а использует ее лишь как нижнюю границу, чтобы отсечь совсем уж плохие варианты.
Кроме того, алгоритм корректирует системные искажения, когда вероятность токенов искусственно завышается в зависимости от их позиции в тексте.
Для баланса между качеством и разнообразием используется адаптивный механизм на основе гармонического среднего, который в каждый момент времени уделяет больше внимания той метрике, которая проседает.
На бенчмарках для Best-of-N, от MMLU-Pro+ до GSM8K, SemDiD увеличивает покрытие (шанс найти верный ответ) на 1.4%-5.2% по сравнению с аналогами.
Генерируя для GRPO или RLOO семантически богатые наборы ответов, SemDiD предоставляет им более качественный материал для обучения. Это ускоряет сходимость на 15% и повышает финальную точность моделей.
@ai_machinelearning_big_data
#AI #ML #LLM #SemDiD
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥10❤5👍5
Forwarded from Китай.AI
🔥 MemOS: революция в управлении памятью для ИИ от китайских разработчиков
Китайские исследователи представили MemOS — первую операционную систему для управления долговременной памятью у больших языковых моделей. Система превзошла решения OpenAI по ключевым метрикам до 159%!
🔍 Почему это важно?
Большинство ИИ сегодня «страдают склерозом» — не сохраняют контекст между сессиями. MemOS решает эту проблему, превращая ИИ из генератора текстов в полноценного «цифрового коллегу».
🌟 Ключевые преимущества:
• Повышение точности на
• Снижение затрат токенов на
• Рост производительности в тестах временной логики на
🧠 Как это работает?
Система использует три уровня памяти:
1. Явная память (заметки, факты)
2. Активная память (текущий контекст)
3. Параметрическая память (глубокие знания модели)
💼 Применение:
• Персональные ассистенты с историей взаимодействий
• Научные исследования с долгосрочным анализом данных
• Финансы и юриспруденция с проверяемыми источниками
🛠 Технические детали:
Архитектура включает:
- Memory API для управления воспоминаниями
- MemScheduler для прогнозирования нужных фрагментов
- MemCube — стандартизированные блоки памяти
Сайт проекта | GitHub
Проект уже поддержан ведущими университетами Китая и корпорациями вроде China Telecom.
#КитайскийИИ #КитайAI #LLM #MemOS
Китайские исследователи представили MemOS — первую операционную систему для управления долговременной памятью у больших языковых моделей. Система превзошла решения OpenAI по ключевым метрикам до 159%!
🔍 Почему это важно?
Большинство ИИ сегодня «страдают склерозом» — не сохраняют контекст между сессиями. MemOS решает эту проблему, превращая ИИ из генератора текстов в полноценного «цифрового коллегу».
🌟 Ключевые преимущества:
• Повышение точности на
38.97%
vs OpenAI• Снижение затрат токенов на
60.95%
• Рост производительности в тестах временной логики на
159%
🧠 Как это работает?
Система использует три уровня памяти:
1. Явная память (заметки, факты)
2. Активная память (текущий контекст)
3. Параметрическая память (глубокие знания модели)
💼 Применение:
• Персональные ассистенты с историей взаимодействий
• Научные исследования с долгосрочным анализом данных
• Финансы и юриспруденция с проверяемыми источниками
🛠 Технические детали:
Архитектура включает:
- Memory API для управления воспоминаниями
- MemScheduler для прогнозирования нужных фрагментов
- MemCube — стандартизированные блоки памяти
Сайт проекта | GitHub
Проект уже поддержан ведущими университетами Китая и корпорациями вроде China Telecom.
#КитайскийИИ #КитайAI #LLM #MemOS
GitHub
GitHub - MemTensor/MemOS: MemOS (Preview) | Intelligence Begins with Memory
MemOS (Preview) | Intelligence Begins with Memory. Contribute to MemTensor/MemOS development by creating an account on GitHub.
👍5
Forwarded from Machinelearning
Размер — 1 триллион параметров, при этом:
- 65.8% на SWE-bench Verified, против 50.2% у Claude Sonnet 4 и 40.8% у GPT-4.1
- Лучшие результаты среди открытых моделей по кодингу, математике и агентным задачам
- Архитектура MoE на базе DeepSeek V3, 1 трлн параметров, 32B активны.
Также доступна через API:
- $0.15 за миллион входных токенов (при попадании в кэш)
- $0.60 за миллион входных токенов (если кэш не сработал)
- $2.50 за миллион выходных токенов
Почти в 5 раз дешевле, чем Claude 4 Sonnet и Gemini 2.5 Pro!
@ai_machinelearning_big_data
#kimi #china #llm #ml #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤5👍4
Infinite personalization is already on its way.
Gemini offers to create materials in expanded media formats (website, infographic, podcast) based on research.
That is, based on research findings about fundamental topics like teeth cleaning, you could soon ask an LLM to create a phone app reminding people about the importance of using an irrigator and dental flossing—complete with comics and fairy-tale characters for kids, of course.
#LLM #infinitepersonalization
Gemini offers to create materials in expanded media formats (website, infographic, podcast) based on research.
That is, based on research findings about fundamental topics like teeth cleaning, you could soon ask an LLM to create a phone app reminding people about the importance of using an irrigator and dental flossing—complete with comics and fairy-tale characters for kids, of course.
#LLM #infinitepersonalization
Forwarded from Анализ данных (Data analysis)
🚀 Qwen3-Coder — новая мощная open-source модель от Alibaba для кодинга
Модель с архитектурой MoE:
- 480B параметров в общей сложности
- 35B активных параметров
- Контекст 256k, но легко масштабируется до 1M токенов
📈 Производительность:
- На уровне Claude 4 Sonnet
- Лучше или на уровне GPT-4.1 на многих задачах
- Обходит Kimi K2, DeepSeek V3 на ряде бенчмарков
🧩 Модель уже доступна:
- На HuggingFace — можно скачать и запускать
- В OpenRouter — $1/M токенов вход, $5/M выход
(в 3 раза дешевле Claude Sonnet: $3 и $15)
Попробовать бесплатно можно:
🟡 Через чат: ttps://chat.qwen.ai/)
🟡 GitHub link: https://github.com/QwenLM/qwen-code
🟡 Blog:https://qwenlm.github.io/blog/qwen3-coder/
🟡 Model: https://hf.co/Qwen/Qwen3-Coder-480B-A35B-Instruct
Qwen3-Coder — это просто одна из лучших моделей для программирования, которые мы когда-либо видели.
#qwen #ml #ai #llm #Alibaba
@data_analysis_ml
Модель с архитектурой MoE:
- 480B параметров в общей сложности
- 35B активных параметров
- Контекст 256k, но легко масштабируется до 1M токенов
📈 Производительность:
- На уровне Claude 4 Sonnet
- Лучше или на уровне GPT-4.1 на многих задачах
- Обходит Kimi K2, DeepSeek V3 на ряде бенчмарков
🧩 Модель уже доступна:
- На HuggingFace — можно скачать и запускать
- В OpenRouter — $1/M токенов вход, $5/M выход
(в 3 раза дешевле Claude Sonnet: $3 и $15)
Попробовать бесплатно можно:
Qwen3-Coder — это просто одна из лучших моделей для программирования, которые мы когда-либо видели.
#qwen #ml #ai #llm #Alibaba
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥4❤1
Forwarded from Machinelearning
🐋 Гигантский кит приплыл к нам!
🚀 DeepSeek обновился до V3.1.
Следите за новостями, волна только набирает силу.
✨ Новый LLM: deepseek-ai/DeepSeek-V3.1-Base
⚡ 685B параметров
📏 Контекстное окно 128k
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
@ai_machinelearning_big_data
#DeepSeek #AI #LLM #V3_1 #MachineLearning
🚀 DeepSeek обновился до V3.1.
Следите за новостями, волна только набирает силу.
✨ Новый LLM: deepseek-ai/DeepSeek-V3.1-Base
⚡ 685B параметров
📏 Контекстное окно 128k
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
@ai_machinelearning_big_data
#DeepSeek #AI #LLM #V3_1 #MachineLearning
👍6🔥6❤3
Forwarded from Китай.AI
Китайский гигант ByteDance выпускает мощную open-source модель Seed-OSS на 36 миллиардов параметров
Компания, стоящая за TikTok, сделала крупный шаг в мире открытого ИИ. Их команда Seed представила Seed-OSS-36B — семейство из трех моделей с уникальной технологией управления «бюджетом» вычислений. Это прямой ответ на стратегию OpenAI с её GPT-OSS.
Ключевые особенности, которые выделяют Seed-OSS на фоне других:
🚀 Невероятно длинный контекст: 512K токенов (~1600 страниц текста)
Это в 4 раза больше, чем у последней версии DeepSeek V3.1 (128K). Важно, что такая длина была заложена сразу на этапе предобучения, а не достигнута позже искусственными методами. Это открывает двери для анализа огромных юридических документов, длинных отчетов и сложного кода.
💡 Новая функция: «Бюджет размышлений» (Thinking Budget)
Пользователь может сам задать лимит токенов, которые модель потратит на решение задачи. Для простых вопросов — малый бюджет и быстрый ответ. Для сложных вычислений или генерации кода — большой бюджет для глубоких раздумий. Модель буквально ведет внутренний диалог, отслеживая, сколько «мыслей» уже использовано.
Технические детали:
• Три модели: две базовые (с синтетическими данными и без) и одна инструктивная.
• Архитектура: Плотная (dense) модель на 36B параметров, не Mixture-of-Experts (MoE)
• Ключевые технологии: RoPE, GQA, RMSNorm, SwiGLU
• Слои: 64 | Hidden Size: 5120 | Размер словаря: 155K
• Объем обучающих данных: 12Т токенов (меньше, чем у многих аналогов ~15T+)
• Лицензия: Apache-2.0 (можно использовать бесплатно, в т.ч. коммерчески)
Результаты бенчмарков впечатляют:
• MMLU-Pro: 65.1 (Qwen2.5-32B: 58.5)
• BBH (логика): 87.7 (новый рекорд для open-source)
• GSM8K (математика): 90.8
• HumanEval (код): 76.8
Модель уже доступна для загрузки и экспериментов.
GitHub | Hugging Face
#КитайскийИИ #КитайAI #OpenSource #LLM #SeedOSS #ByteDance #ИскусственныйИнтеллект
Компания, стоящая за TikTok, сделала крупный шаг в мире открытого ИИ. Их команда Seed представила Seed-OSS-36B — семейство из трех моделей с уникальной технологией управления «бюджетом» вычислений. Это прямой ответ на стратегию OpenAI с её GPT-OSS.
Ключевые особенности, которые выделяют Seed-OSS на фоне других:
🚀 Невероятно длинный контекст: 512K токенов (~1600 страниц текста)
Это в 4 раза больше, чем у последней версии DeepSeek V3.1 (128K). Важно, что такая длина была заложена сразу на этапе предобучения, а не достигнута позже искусственными методами. Это открывает двери для анализа огромных юридических документов, длинных отчетов и сложного кода.
💡 Новая функция: «Бюджет размышлений» (Thinking Budget)
Пользователь может сам задать лимит токенов, которые модель потратит на решение задачи. Для простых вопросов — малый бюджет и быстрый ответ. Для сложных вычислений или генерации кода — большой бюджет для глубоких раздумий. Модель буквально ведет внутренний диалог, отслеживая, сколько «мыслей» уже использовано.
Технические детали:
• Три модели: две базовые (с синтетическими данными и без) и одна инструктивная.
• Архитектура: Плотная (dense) модель на 36B параметров, не Mixture-of-Experts (MoE)
• Ключевые технологии: RoPE, GQA, RMSNorm, SwiGLU
• Слои: 64 | Hidden Size: 5120 | Размер словаря: 155K
• Объем обучающих данных: 12Т токенов (меньше, чем у многих аналогов ~15T+)
• Лицензия: Apache-2.0 (можно использовать бесплатно, в т.ч. коммерчески)
Результаты бенчмарков впечатляют:
• MMLU-Pro: 65.1 (Qwen2.5-32B: 58.5)
• BBH (логика): 87.7 (новый рекорд для open-source)
• GSM8K (математика): 90.8
• HumanEval (код): 76.8
Модель уже доступна для загрузки и экспериментов.
GitHub | Hugging Face
#КитайскийИИ #КитайAI #OpenSource #LLM #SeedOSS #ByteDance #ИскусственныйИнтеллект
GitHub
GitHub - ByteDance-Seed/seed-oss
Contribute to ByteDance-Seed/seed-oss development by creating an account on GitHub.
👍9🔥2