NVIDIA представила новый подход к обучению моделей для сложных математических задач, заняв первое место в конкурсе Kaggle AIMO-2.
Секрет — в огромном датасете OpenMathReasoning, который состоит из 540 тыс. уникальных задач с Art of Problem Solving, 3,2 млн. многошаговых решений (CoT) и 1,7 млн. примеров с интеграцией кода (TIR).
Для сравнения: это в разы больше, чем в популярных аналогах MATH и GSM8K. Все это дополнено 566 тыс. примеров для обучения генеративному выбору решений (GenSelect) — методу, который лучше, чем классическое голосование большинством.
OpenMathReasoning создавался тщательно и ответственно. Сначала задачи фильтровались через Qwen2.5-32B, чтобы убрать простые или дублирующие бенчмарки. Затем DeepSeek-R1 и QwQ-32B генерировали решения, а итеративная тренировка с жесткой фильтрацией улучшала качество. Например, код в TIR-решениях должен был не просто проверять шаги, а давать принципиально новые вычисления — вроде перебора вариантов или численного решения уравнений.
Модели OpenMath-Nemotron (1,5B–32B параметров), обученные на этом наборе данных показали SOTA-результаты. 14B-версия в режиме TIR решает 76,3% задач AIME24 против 65,8% у базового DeepSeek-R1. А с GenSelect, который анализирует 16 кандидатов за раз, точность взлетает до 90%. Даже 1,5B-модель с GenSelect обгоняет 32B-гиганты в отдельных тестах.
@ai_machinelearning_big_data
#AI #ML #Math #Dataset #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤15🔥12
NeMo-Inspector от NVIDIA — это инструмент, который превращает анализ генераций из рутины в осмысленный процесс. Он не просто показывает результаты, а помогает их систематизировать, сравнивать и даже чистить данные.
NeMo-Inspector не просто просмотрщик логов. Это полноценная среда, где можно менять промпты на лету, маркировать проблемные данные и проверять гипотезы.
Для инженеров, которые хотят не просто получать ответы от LLM, но и понимать, как они рождаются, NeMo-Inspector мастхэв. Он не даст магии, зато сэкономит часы ручного разбора и поможет найти слабые места даже в сложных пайплайнах, а поддержка Markdown, LaTeX и подсветки синтаксиса сделает работу с математическими задачами или кодом менее муторной.
Гибкость проводимого анализа - особенность NeMo-Inspector. Вы можете сравнивать, как одна модель справляется с разными параметрами (температура, top_p) или как разные модели решают одну задачу. Допустим, проверяете, повышает ли CoT точность ответов. NeMo-Inspector выведет результаты бок о бок, а еще посчитает статистику: доля правильных ответов, «уверенность» модели (persistence) или кастомные метрики, которые можно задать самостоятельно через Python-функции.
Из практических кейсов: NeMo-Inspector помог «почистить» синтетический датасет GSM-Plus, где 46,99% данных оказались проблемными (в некоторых вопросах было по два знака вопроса — модель путалась, на какой отвечать). В проекте с OpenMath-Mistral-7B выяснилось, что 26% ошибок связаны с падением качества сгенерированного кода. После доработки датасета точность модели выросла на 4,17%.
@ai_machinelearning_big_data
#AI #ML #LLM #NeMoInspector #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43❤28🔥13🍓4
NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.
Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.
В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.
TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.
Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.
Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025.
Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений.
Модель поддерживает форматы
.wav
и .flac
с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи.@ai_machinelearning_big_data
#AI #ML #ASR #Parakeet #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56❤27🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
Джим Фан (Директор по ИИ в NVIDIA) рассказал, что их команда добилась впечатляющего результата: роботы научились ходить и ориентироваться в пространстве без обучения в реальном мире.
Всё обучение прошло в симуляции, и после этого роботы сразу были отправлены на выполнение задач в открытом пространстве.
- Нет физических ограничений. В симуляции робот может падать и вставать хоть миллион раз без поломки. В реальности он бы ломался.
- Ускорение времени. В симуляции нет ограничений «реального времени» — можно крутить процесс с любой скоростью, насколько позволяет железо.
- Параллельное обучение. Можно сразу запускать много виртуальных роботов и собирать опыт с них всех одновременно.
Для обучения не понадобились гигантские модели -всего 1.5 миллиона параметров (не миллиардов!) хватило, чтобы смоделировать «подсознательную механику» движения человеческого тела.
Очень мощный шаг для развития embodied AI и робототехники 🚀
@ai_machinelearning_big_data
#ai #robots #nvidia #future
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥199👍54❤26🤔11👀11🤩3😁2
Media is too big
VIEW IN TELEGRAM
Представьте: вы приходите домой, а робот уже накрыл ужин при свечах и убрал беспорядок после вчерашней вечеринки. И вы не можете отличить, человек это сделал или машина. Это «физический тест Тьюринга» — новая веха в робототехнике, о которой в своем выступлении рассказал Джим Фан, директор по робототехнике в NVIDIA.
Но почему до сих пор ни один робот не справляется с банановой кожурой на полу, а завтрак с хлопьями получается лишь на твердую тройку?
Проблема - в данных. Если ИИ для языка «питается» текстами из интернета, то роботам нужны данные из реального мира: сигналы управления, физические параметры, обратная связь от движений. Собрать их сложно и дорого. В NVIDIA используют телеметрию: операторы в VR-шлемах управляют роботами, записывая каждое действие. Но это медленно, а масштабировать такой сбор данных почти невозможно.
«Это как ископаемое топливо, только хуже — вы сжигаете человеко-часы», — говорит Фан.
Очевидное решение — использовать симуляции. NVIDIA запустила проект Dr. Eureka, где роботов учат в виртуальных мирах. Например, робособака учится балансировать на мяче, а гуманоид осваивает ходьбу за два часа симуляции вместо десяти лет проб и ошибок. Для этого запускают 10 000 параллельных сред с разной гравитацией, трением и весом (это называют «рандомизацией домена»). Если нейросеть справляется в миллионе вариаций, она справится и в реальности.
Но симуляции, к сожалению, не панацея. Традиционные методы требуют ручной настройки каждого объекта. Тут на помощь приходят генеративные модели: Stable Diffusion создает текстуры, ИИ генерирует 3D-сцены, а язык XML пишется через запросы к нейросети. Так появился фреймворк Robocasa — «цифровой двойник» реального мира, где всё, кроме робота, создано алгоритмами. Даже видео с роботом, играющим на укулеле, — фейк, сгенерированный видео-диффузионной моделью.
Ключевой прорыв - модель GROOT, которую NVIDIA открыла для сообщества. Она преобразует изображения и команды в движения, управляя роботом «из коробки». GROOT N1 ловко наливает шампанское или сортирует детали на конвейере. А все благодаря компактной архитектуре, всего 1.5 млн параметров, что меньше, чем у многих мобильных приложений.
Что дальше? Фан говорит о «физическом API» — слое, который превратит роботов в универсальных исполнителей. Представьте: вы запрашиваете навык «приготовить ужин от Мишлен» через облако, и робот делает это без программирования. Или роботы-курьеры сами перестраивают логистику, общаясь через язык действий.
«Все, что движется, станет автономным», — цитирует Фан CEO NVIDIA Дженсена Хуанга.
Главное препятствие кроется в этапе перехода от «цифровых близнецов» к нейросетевым симуляциям («цифровым кочевникам»), которые смогут предсказывать миллионы сценариев. Тут уже не хватит классических методов - нужны гибридные системы, где физика сочетается с генеративными моделями. И судя по темпам (за год нейросети научились реалистично имитировать жидкости и деформации), будущее ближе, чем кажется.
Так когда же мы пройдем физический тест Тьюринга? Возможно, это случится в один из обычных вторников — без анонсов и громких презентаций, как это произошло с языковыми моделями. И тогда роботы станут невидимым фоном жизни, как электричество или Wi-Fi. А мы очень быстро забудем, как жили без них.
@ai_machinelearning_big_data
#AI #ML #Robotics #AIAscent2025 #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍77❤31🔥20🍓3
This media is not supported in your browser
VIEW IN TELEGRAM
Дженсен Хуанг CEO NVIDIA:
ИИ, способный к рассуждению, открыл путь к совершенно новому классу агентных систем.
🚀 Будущее — за гибридными командами, где один человек работает вместе с тысячей интеллектуальных агентов.
🧬 Один биоинженер становится суперинженером, опираясь на целую армию ИИ-помощников, способных не просто выполнять команды, а анализировать, думать и принимать решения.
Это не просто автоматизация — это новый уровень сотрудничества между человеком и разумными машинами.
@ai_machinelearning_big_data
#NVIDIA #future #ai
ИИ, способный к рассуждению, открыл путь к совершенно новому классу агентных систем.
🚀 Будущее — за гибридными командами, где один человек работает вместе с тысячей интеллектуальных агентов.
🧬 Один биоинженер становится суперинженером, опираясь на целую армию ИИ-помощников, способных не просто выполнять команды, а анализировать, думать и принимать решения.
Это не просто автоматизация — это новый уровень сотрудничества между человеком и разумными машинами.
@ai_machinelearning_big_data
#NVIDIA #future #ai
12❤127🤣48🔥41👍25🤔13🥰6👏5🎄2🌭1
📈 За квартал общая выручка выросла на 69%, а продажи в дата-центрах (включая AI-чипы и инфраструктуру) — на 73%.
🔥 Главная причина? Очевидна: взрывной спрос на GPU для обучения и инференса ИИ.
Мир строит LLM — и делает это на железе NVIDIA.
▪ Выручка: $44.1 млрд (+69% год к году)
▪ Earnings per share: $0.96 (прогноз был $0.93)
▪ Доход от дата-центров: $39 млрд (+73% YoY)
▪ Доход от гейминга: $3.8 млрд (+48% по сравнению с прошлым кварталом)
Фактический показатель прибыли на акцию (EPS) у NVIDIA составил $0.96, что на 3,23% выше прогнозируемых $0.93.
Также выручка превысила ожидания на $800 млн, что подчёркивает способность компании точно попадать в рыночные тренды и сохранять уверенное финансовое здоровье.
🔥 Комментарии излишни — рынок ИИ буквально катапультирует NVIDIA на новый уровень. GPU стали не просто новым золотом, а инфраструктурой будущего.
Пока другие корпорации режут бюджеты и занижают прогнозы, NVIDIA штампует рекорды — квартал за кварталом.
@ai_machinelearning_big_data
#NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
❤68👍35🔥15👻6🤬4🤔3🎄1
Media is too big
VIEW IN TELEGRAM
Глава NVIDIA Дженсен Хуанг признал немыслимое:
🇨🇳 Китайские ИИ-компании стали по-настоящему сильными.
🇺🇸 Санкции США провалились.
💥 Чипы Huawei уже сравнимы с NVIDIA H200.
И это только начало.
«Китай раньше давал нам 95% выручки. Теперь — лишь 50%.»
«Половина ИИ-учёных мира — в Китае.»
«Они закрывают разрыв и растут экспоненциально.»
🗣️ А вот что Хуанг говорит прямо:
«Я надеюсь, что все ИИ-разработчики будут строить решения на американском технологическом стеке.»
Развивайтесь сколько хотите — но на наших чипах, под нашим контролем.
Но Китай отвечает:
Мы строим не просто модели. Мы строим технологический суверенитет.
🇺🇸→🇨🇳 Санкции, которые ускорили то, что хотели остановить
Все крупнейшие китайские технокомпании сейчас отказываются от чипов Nvidia и переходят на собственные ИИ-процессоры.
Не по желанию — по необходимости. Причина? Экспортные ограничения США.
🎯 А теперь главное:
Изначальная цель этих санкций была не дать Китаю развить своё чипостроение.
А получилось наоборот — вся страна, крупнейший рынок микросхем в мире, переходит на китайские чипы.
Всё, чтобы не зависеть от США.
📉 Иронично, но факт:
Если бы США не сделали ничего, Китай развивал бы отрасль медленно, хаотично, с оглядкой на рынок.
И американские компании (включая ту же Nvidia) продолжали бы доминировать.
А теперь — нет.
@ai_machinelearning_big_data
#news #ai #ml #NVIDIA #usa #china
🇨🇳 Китайские ИИ-компании стали по-настоящему сильными.
🇺🇸 Санкции США провалились.
💥 Чипы Huawei уже сравнимы с NVIDIA H200.
И это только начало.
«Китай раньше давал нам 95% выручки. Теперь — лишь 50%.»
«Половина ИИ-учёных мира — в Китае.»
«Они закрывают разрыв и растут экспоненциально.»
🗣️ А вот что Хуанг говорит прямо:
«Я надеюсь, что все ИИ-разработчики будут строить решения на американском технологическом стеке.»
Развивайтесь сколько хотите — но на наших чипах, под нашим контролем.
Но Китай отвечает:
Мы строим не просто модели. Мы строим технологический суверенитет.
🇺🇸→🇨🇳 Санкции, которые ускорили то, что хотели остановить
Все крупнейшие китайские технокомпании сейчас отказываются от чипов Nvidia и переходят на собственные ИИ-процессоры.
Не по желанию — по необходимости. Причина? Экспортные ограничения США.
🎯 А теперь главное:
Изначальная цель этих санкций была не дать Китаю развить своё чипостроение.
А получилось наоборот — вся страна, крупнейший рынок микросхем в мире, переходит на китайские чипы.
Всё, чтобы не зависеть от США.
📉 Иронично, но факт:
Если бы США не сделали ничего, Китай развивал бы отрасль медленно, хаотично, с оглядкой на рынок.
И американские компании (включая ту же Nvidia) продолжали бы доминировать.
А теперь — нет.
@ai_machinelearning_big_data
#news #ai #ml #NVIDIA #usa #china
❤200🔥101👍66🤣40🤔18😁17👏9👀4🤬2💯1
Мультимодальная модель от NVIDIA уверенно занимает первое место на OCRBench v2, показав лучшую точность парсинга документов среди всех моделей.
📄 Что это такое:
Llama Nemotron Nano VL — лёгкая vision-language модель для интеллектуальной обработки документов (IDP), которая:
• разбирает PDF
• вытаскивает таблицы
• парсит графики и диаграммы
• работает на одной GPU
– Вопрос-ответ по документам
– Извлечение таблиц
– Анализ графиков
– Понимание диаграмм и дешбордов
📊 OCRBench v2 — крупнейший двухъязычный бенчмарк для визуального анализа текста, и именно NVIDIA Nano VL показывает лучший результат.
@ai_machinelearning_big_data
#Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍70❤22🔥12🥰8
🏆 NVIDIA Parakeet V2 возглавила рейтинг ASR-моделей на Hugging Face
Новая модель Parakeet-TDT-0.6B-V2 достигла рекордной точности распознавания речи на Open ASR Leaderboard от Hugging Face — 6.05 на Word Error Rate.
🦜 Parakeet V2 выводит автоматическое распознавание речи (ASR) на новый уровень:
⚡ Молниеносный инференс — RTFx 3386 (в 50 раз быстрее аналогов)
🔍 Поддержка необычных сценариев:
• Распознавание песен в текст (song-to-lyrics)
• Форматирование чисел и временных меток
• Высокоточная транскрибация
📌 Лицензирование: CC-BY-4.0
🔗 Leaderboard: huggingface.co/spaces/hf-audio/open_asr_leaderboard
🔗 Демо: huggingface.co/nvidia/parakeet-tdt-0.6b-v2
🔗 Попробовать: build.nvidia.com/explore/speech
@ai_machinelearning_big_data
#NVIDIA #ASR #SpeechRecognition #Parakeet #AIaudio
Новая модель Parakeet-TDT-0.6B-V2 достигла рекордной точности распознавания речи на Open ASR Leaderboard от Hugging Face — 6.05 на Word Error Rate.
🦜 Parakeet V2 выводит автоматическое распознавание речи (ASR) на новый уровень:
⚡ Молниеносный инференс — RTFx 3386 (в 50 раз быстрее аналогов)
🔍 Поддержка необычных сценариев:
• Распознавание песен в текст (song-to-lyrics)
• Форматирование чисел и временных меток
• Высокоточная транскрибация
🔗 Leaderboard: huggingface.co/spaces/hf-audio/open_asr_leaderboard
🔗 Демо: huggingface.co/nvidia/parakeet-tdt-0.6b-v2
🔗 Попробовать: build.nvidia.com/explore/speech
@ai_machinelearning_big_data
#NVIDIA #ASR #SpeechRecognition #Parakeet #AIaudio
Please open Telegram to view this post
VIEW IN TELEGRAM
❤60👍31🔥11🥰6👌1