287K subscribers
3.98K photos
688 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
🌟 NVIDIA cuOpt: GPU-решатель для оптимизации решений.

NVIDIA опубликовала в открытом доступе свой проект cuOpt. Это набор инструментов оптимизации, который использует ресурсы и возможности GPU для решения сложных задач линейного программирования, маршрутизации и логистики.

cuOpt помогает находить эффективные решения для проблем с миллионами переменных, где традиционные методы терпят крах., превращая «нерешаемые» задачи в реальные решения, без жертвования масштабом или скоростью. Это, своего рода, «турбокомпрессоре» для задач, где время и точность критически важны, от доставки товаров до расписаний производства.

cuOpt состоит из C++-движка и API (Python, C и другие), которые работают как обертки, которые дают возможность гибко интегрировать библиотеку в разные проекты.

Для задач маршрутизаций (TSP, VRP, PDP) cuOpt генерирует начальные решения, а затем улучшает их итеративно, используя эвристические алгоритмы. Это не «лобовое» вычисление всех вариантов, а умный поиск, который экономит ресурсы и время.

Методы работы с линейным программированием (LP) и смешанными целочисленными задачами (MILP) тоже уникальны. Для LP применяется PDLP — алгоритм первого порядка, который использует градиентный спуск и работает на GPU, альтернативно запускаясь на CPU с симплекс-методом.

Смешанное целочисленное программирование - это метод математической оптимизации, позволяющий решать задачи с использованием смеси непрерывных переменных (которые могут иметь любое значение, включая десятичные и дробные), дискретных переменных и двоичных переменных.


В MILP немного сложнее: на GPU выполняются эвристики для поиска допустимых решений (локальный поиск, «feasibility pump»), а CPU занимается ветвлениями и границами, улучшая оценку. Решения между GPU и CPU обмениваются в реальном времени, создавая гибридную систему.

▶️ NVIDIA cuOpt предлагает несколько вариантов развертывания, адаптированных под разные задачи: pip, conda или готовый контейнер Docker / NSG.

Еще поддерживаются (с минимальным рефакторингом) инструменты AMPL и PuLP, с помощью которых сценарии использования cuOpt значительно расширяются.

В репозитории проекта разработчики собрали примеры и Jupyter-ноутбуки, которые можно запустить локально или в облачных сервисах: Google Colab (с выбором GPU-среды) или NVIDIA Launchable.


📌 Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Документация
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DS #NVIDIA #CuOPT
Please open Telegram to view this post
VIEW IN TELEGRAM
44👍37🔥16🥰3
Media is too big
VIEW IN TELEGRAM
🚀 Cosmos-Predict2 — новая открытая версия видео-модели для Physical AI от NVIDIA!

Cosmos-Predict2 — ключевая часть экосистемы World Foundation Models (WFMs), созданная для Physical AI. Модель умеет предсказывать будущее состояние визуального мира, используя текст и видео. Cosmos разработан для ускорения обучения моделей, которые понимают физику, среду и действия — от автономных автомобилей до роботов. Выглядит очень интересно.

Это самое мощное поколение моделей в экосистеме Cosmos. Модель заметно улучшена по сравнению с Predict1:

🎯 лучшее качество видео
🧠 точнее соответствует текстовому описанию
🎥 более реалистичная динамика движения

📊 Cosmos-Predict2 превосходит другие open-source видео foundation-модели.

Веса
Полный код для инференса и обучения (с туториалами)

@ai_machinelearning_big_data


#Cosmos #NVIDIA
53🔥39👍23
🚨 NVIDIA показала будущее ИИ на GTC Paris

Вот 7 самых интересных анонсов 👇

1️⃣ NVL72 — система из 72 Blackwell GPU

NVIDIA Blackwell: пропускная способность — 130 ТБ/с. Заточен для масштабных AI-систем.
• Лидерство в скорости инференса
• Поддержка популярных моделей: DeepSeek-R1, Llama 3.1 405B, Llama 3.3 70B и другие
• Второе поколение Transformer Engine с поддержкой FP4
• TensorRT Model Optimizer для квантования моделей в FP4

2️⃣ Фабрики ИИ
Дженсен назвал их *"фабриками интеллекта"*. Огромные центры на Blackwell, NVLink и жидкостном охлаждении, работающие без остановки. «Мы строим сеть AI-фабрик в Европе, чтобы локальные идеи становились глобальными инновациями»*, — Дженсен Хуанг

3️⃣ Цифровые двойники
Всё, что создаётся в физическом мире, будет сперва оцифровано в виртуальный мир

4️⃣ Agentic AI — следующий важный этап
ИИ, которые наблюдают, размышляют, действуют и учатся. Постоянно обучающиеся агенты, способные переосмысливать свои решения.

5️⃣ CUDA-Q на Grace Blackwell
CUDA-Q — это open-source платформа для разработки гибридных квантовых приложений, объединяющая GPU, CPU и QPU в единую систему.
Она “qubit-agnostic” — поддерживает любые типы кубитов и QPU-архитектуры.
🔹 Гибридный код: квантовые и классические вычисления в одном потоке
🔹 До 2500× ускорение симуляций на GPU
🔹 Лучшие компиляторы и рантайм-инструменты
🔹 Интеграция с AI и HPC-воркфлоу
🔹 Поддержка всех типов QPU и кубитных технологий
🔹 Работает с реальными и симулируемыми квантовыми процессорами

6️⃣ Суверенный AI в Европе
Франция, Германия, UK, Финляндия, Италия и Испания создают свои AI-инфраструктуры в партнёрстве с NVIDIA.

7️⃣ DGX Cloud Lepton от NVIDIA + Hugging Face
Глобальный доступ к GPU в один клик. Hugging Face запускает Training Cluster as a Service — теперь обучение LLM напрямую интегрировано с Lepton.

@ai_machinelearning_big_data


#NVIDIA #GTC
91👍35🔥33🤣9🥰3❤‍🔥2
🌟 FlashInfer: библиотека ускорения LLM-инференса на GPU.

FlashInfer - это библиотека для ускорения работы с LLM, созданная NVIDIA, чтобы объединить скорость обработки на GPU и гибкость для разработчиков. Еt главная цель — сократить время вывода текста, одновременно позволяя инженерам быстро внедрять новые алгоритмы и адаптировать решения под разные задачи.

Ее архитектура спроектирована так, чтобы оставаться актуальной при появлении новых алгоритмов: будь то методы повторного использования кэша или эксперименты с форматами внимания. Плюс к этому, библиотека легковесна, она не требует установки лишних зависимостей, а ее API напоминает стандартные инструменты PyTorch.

FlashInfer базируется на 2 принципах : эффективное управление памятью и динамическое планирование вычислений. Библиотека оптимизирует хранение KV-cache через блочно-разреженные структуры, уменьшая объем лишних обращений к памяти.

Это особенно важно при обработке запросов с разной длиной текста. Также используется технология JIT-компиляции, которая на лету генерирует оптимизированные CUDA-ядра под конкретную задачу.

Архитектура FlashInfer разбита на 4 модуля: Attention, GEMM, Communication и Token sampling.

🟢«Attention» работает с любыми схемами маскирования и позиционного кодирования, используя унифицированное представление кэша как разреженной матрицы.

🟢GEMM и Communication отвечают за матричные операции, включая сложные сценарии вроде grouped-GEMM (множество мелких умножений за один вызов). Для распределенных систем реализованы алгоритмы all-reduce и all-to-all, что критично для MoE-моделей.

🟢"Token sampling" ускоряет генерацию текста, заменяя традиционные сортировки вероятностей на rejection-based алгоритмы, отсекающие маловероятные варианты на лету.

FlashInfer поддерживает PyTorch через собственные операторы и DLPack API, тем самым упрощает внедрение в фреймворки vLLM и SGLang. Благодаря разделению процесса на этапы «планирования» и «запуска» библиотека минимизирует задержки: на первом шаге выбирается оптимальное ядро под параметры запроса, а затем оно переиспользуется для последующих аналогичных задач.


📌 Лицензирование: Apache 2.0 License.


🟡Статья
🟡Документация
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #FlashInfer #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4719🔥15🥰2
🖥 Nvidia почти достигла рыночной капитализации в 4 триллиона долларов.

Во времена золотой лихорадки богатели продавцы лопат, а не старатели.
Сегодня тот же принцип работает в ИИ: NVIDIA — продавец лопат XXI века 🛠️

• Золотоискатели-2025 — стартапы и корпорации, обучающие LLM, строящие автономных агентов и генеративные сервисы.
• Лопаты — GPU серии A/H, NVLink, CUDA-стек, DGX-сервера и сетевые ускорители.
• Магазин инструментов — собственные облака NVIDIA и партнёрские дата-центры.

Пока одни ищут «золото» в данных, NVIDIA продаёт каждому из них новые лопаты — и зарабатывает на каждом.

💰 Если бы вы вложили $10,000 в Nvidia в 2010… сейчас у вас было бы $4,400,000.


@ai_machinelearning_big_data

#ai #ml #Nvidia #market

#AI #GPU #NVIDIA #Инфраструктура
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥86👍6020🤷‍♂4🤩2😈1
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Дженсен Хуанг: США должны продавать чипы даже Китаю — это усилит наше лидерство в AI

Глава NVIDIA объяснил, почему экспорт AI-чипов — это не слабость, а стратегия:

🗣 «Половина AI-разработчиков в мире — китайцы. Пусть они строят свои системы на нашей технологии

💡 Что он имеет в виду:

— Если весь мир (включая Китай) работает на американских чипах, платформах и фреймворках,
— США получают техническое и инфраструктурное преимущество,
— А значит — долгосрочное лидерство в AI, даже если некоторые страны развивают собственные модели.

🔍 А как же риски? Военные, шпионские?

> «Они не будут строить военные системы на чужих чипах. Просто не могут себе это позволить

Технологии, от которых зависит твой конкурент— это не оружие. Это рычаг влияния.

И чем больше стран завязаны на американском стеке — тем выше шансы, что США останутся в центре мировой AI-инфраструктуры.

Еще из интересного, после того как MIT выпустили исследование о том, что ИИ якобы снижает когнитивные способности человека, Хуанг в своём стиле — дал "жесткий" ответ:

> “Я не читал это исследование, лол”
> “Я каждый день пользуюсь ИИ — и мои когнитивные навыки только растут”

Критическое мышление никто не отменял
> “Я не принимаю ответ как есть — я его анализирую, критикую, уточняю”
> “Такой подход и развивает мышлени

Полное интервью Дженсена

@ai_machinelearning_big_data

#ai #Ml #nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
153👍95😁34🤣21🔥98🙉3
🧠 Как «вклеить» объект в картинку так, чтобы он выглядел естественно?

Это одна из самых сложных задач в семантической генерации:
🔸 нужно сохранить структуру сцены
🔸 вставить объект по текстовому описанию
🔸 и найти уместное место, а не просто налепить поверх

Большинство моделей с этим не справляются — объект добавляется не к месту или портит фон.

Новый метод Add-it от NVIDIA решает эту задачу без обучения модели.

Он расширяет механизм внимания в диффузионных моделях, чтобы учитывать сразу три источника:

1. Оригинальное изображение
2. Текстовый промпт
3. Промежуточную сгенерированную картинку

📌 Такой подход позволяет:
– сохранить геометрию сцены
– встроить объект туда, где он действительно мог бы быть
– не терять мелкие детали и текстуры

📊 Результаты:
– Add-it без дообучения обходит supervised‑модели
– На новом бенчмарке Additing Affordance показывает SOTA результат по «естественности размещения»
– В слепых тестах люди выбирают его в 80% случаев
– Улучшает метрики качества генерации

🟠Github: https://github.com/NVlabs/addit
🟠Demo: https://huggingface.co/spaces/nvidia/addit
🟠Paper: https://arxiv.org/abs/2411.07232
🟠Project: https://research.nvidia.com/labs/par/addit/

@ai_machinelearning_big_data


#NVIDIA #Diffusion #Addit #StableDiffusion #AIgen #ControllableGeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
82🔥33👍29👻7💯6
This media is not supported in your browser
VIEW IN TELEGRAM
🐼 Pandas тормозит на больших данных?

NVIDIA показала, как ускорить его в 40 раз — без переписывания кода.

Команда NVIDIA провела эксперимент с 18 миллионами строк данных с фондовых рынков: они выполнили типичный анализ данных с помощью pandas на CPU, а затем тоже самое — на GPU, используя cudf.pandas.

Для примеры были взяты:
📉 Скользящие средние (50D и 200D)
📅 Недельная статистика закрытия рынков
🧊 В общей сложности ~18M строк

Результат впечатляет : удалось добиться**ускорения обработки данных в 20–40 раз

Код скрипта не менялся вообще — тот же pandas, но на GPU.

Это один из примеров, где ускорение достигается без переписывания логики кода.

🟡 Потестить самому можно в Colab
🟡 Другие примеры с кодом — здесь

@ai_machinelearning_big_data


#datascience #ml #nvidia #gpu #pandas #python
Please open Telegram to view this post
VIEW IN TELEGRAM
1122👍39🔥18😁3🤔3🤣2
🌟 OpenReasoning-Nemotron: набор ризонинг-моделей от NVIDIA.

OpenReasoning-Nemotron - набор LLM на архитектуре Qwen 2.5 и дистиллированных из DeepSeek-R1-0528 ( 671 млрд. параметров):

🟠OpenReasoning-Nemotron-1.5B;
🟠OpenReasoning-Nemotron-7B;
🟠OpenReasoning-Nemotron-14B;
🟢OpenReasoning-Nemotron-32B;

Семейство было обучено на 5 млн. примеров рассуждений в математике, естественных науках и программировании.

Модели показали достойные результаты pass@1 на бенчах GPQA, MMLU-PRO, AIME, HMMT и LiveCodeBench - без использования RL.

Старшая модель, 32B, выбила 96,7% по HMMT с декодированием GenSelect.


📌Лицензирование: CC-BY-4.0 License.


🟡Статья
🟡Набор моделей


@ai_machinelearning_big_data

#AI #ML #LLM #Reasoning #Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
89👍23🔥19🥰3👏3
🌟 NVIDIA научила роботов-манипуляторов учиться на собственных ошибках при захвате объектов.

Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью.

Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды.

🟡И вот, похоже, NVIDIA предложила решение этой проблемы.

GraspGen - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению.

В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием.

Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные.

И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель.

Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь.

🟡Подкреплено все это работой с данными.

Разработчики выпустили симулированный датасет, содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски.

🟡На практике, в тестах, цифры говорят сами за себя.

В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%.

На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно.

Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%.

🟡NVIDIA выложила в открытый доступ весь инструментарий.

Код, веса моделей и датасет уже доступны на GitHub и Hugging Face.

Авторы позаботились об энтузиастах: есть подробные инструкции по установке через Docker или pip, готовые демо-скрипты, позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд.

Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал, который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD.

🟡В планах на будущее

Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных.


📌Лицензирование кода: NVIDIA Research Licensing.

📌Лицензирование датасета : CC-BY-4.0 License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Robotics #GraspGen #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6235👍24😁4🎉3👨‍💻1
🖥 Как выжать максимум из маленькой LLM? Ответ — долго и грамотно учить.

NVIDIA показала, как 1.5B-модель можно раскачать до топовых результатов в логике, математике, коду и STEM-задачам — без увеличения параметров модели.

📈 Результат после месяцев обучения:
+55% к логическим задачам
+14.7% к математике
+13.9% к коду
+25.1% к сложным STEM-вопросам

🛠 Как они это сделали:

– Использовали RL (обучение с подкреплением) на 5 типах задач, включая 40K примеров по математике и 24K по программированию
– Все ответы проверялись автоматически в "песочнице", которая оценивает, правильный ли результат
– Применили улучшенную стратегию обучения — *Group Relative Policy Optimization* — и добавили несколько хитрых трюков:

🟢 Decoupled clipping — обычно модель "обрезает" редкие и неожиданные токены, чтобы не уходить слишком в сторону от главного. Но здесь этот механизм ослаблен: модель может чаще выбирать нестандартные слова, что помогает ей находить неожиданные, но правильные решения.

🟢 Dynamic sampling — модель *не тратит время* на лишком лёгкие задачи. Она пропускает такие примеры и фокусируется на тех, где действительно можно чему-то научиться.

🟢 Маленький KL-штраф (0.0001) — KL показывает, насколько поведение модели отклоняется от старой версии (эталона). Здесь штраф почти нулевой, чтобы не мешать экспериментам, но всё ещё предотвращать полное "сумасшествие" модели.

🟢 Сброс каждые 400 шагов — модель регулярно сбрасывает и policy (поведение), и оптимизатор. Это как регулярная перезагрузка — модель забывает вредные привычки, но сохраняет полезные навыки.

🟢 Температура 1.2 и длинный контекст (8K → 16K) — высокая температура делает поведение модели более разнообразным. А длинный контекст помогает учитывать больше информации при генерации ответа.

Все эти приёмы помогли сохранить интерес модели к поиску новых решений, а не скатываться к заученным паттернам.

Итог: модель не "застывает", а продолжает исследовать — и выдает стабильный рост качества без расширения архитектуры.

📄 Почитать статью полностью : arxiv.org/abs/2507.12507

@ai_machinelearning_big_data

#ml #ai #nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥122👍3418😐2🗿2😁1👨‍💻1
🎙️ NVIDIA выпустили Canary-1B v2 — открытую модель для распознавания и перевода речи, которая работает с 25 европейскими языками.

Что она умеет:
- 📝 Точное ASR (распознавание речи) и AST (перевод речи) между английским и 24 другими языками.
- Автоматическая пунктуация, капитализация и точные таймстампы до слова.
- Поддержка русского, французского, немецкого, испанского и многих других языков.

Чем интересна
- До 10× быстрее инференс, чем у моделей в 3 раза больше.
- Уже показывает state-of-the-art точность среди открытых моделей на Hugging Face.
- Лицензия CC-BY-4.0 — можно свободно использовать в проектах.

Под капотом:
- Архитектура: FastConformer-энкодер + Transformer-декодер (~978M параметров).
- Форматы: .wav и .flac, моно 16 кГц.
- Легко интегрируется через NVIDIA NeMo или прямо с Hugging Face.

Где пригодится:
🟢 голосовые ассистенты
🟢 субтитры и перевод видео
🟢 чат-боты с речевым вводом
🟢 real-time анализ речи

Всего ~978M параметров → легче, быстрее и дешевле в использовании, чем большие модели конкурентов.

🟠 Попробовать можно здесь: https://huggingface.co/nvidia/canary-1b-v2
🟠SET: https://huggingface.co/datasets/nvidia/Granary
🟠PARAKEET: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v3

@ai_machinelearning_big_data


#AI #NVIDIA #SpeechRecognition #ASR #AST #Multilingual #MachineLearning #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85🔥39152
🌟 NVIDIA Jet-Nemotron: гибридная архитектура, которая быстрее SOTA-моделей в 53 раза.

Jet-Nemotron - новая архитектура языковых моделей, которая, по заявлениям NVIDIA, превосходит по эффективности топовые опенсорс-модели.

На H100 обещают ускорение пропускной способности при генерации до 53.6 раз, если работать с контекстом в 256 тыс. токенов и максимальным размером батча. Такой скачок производительности стал возможен благодаря двум ключевым инновациям: пайплайну PostNAS и новому блоку линейного внимания JetBlock.

🟡PostNAS (Post Neural Architecture Search).

Суть PostNAS состоит в отказе от дорогостоящего обучения новых архитектур с нуля. Вместо этого берут уже предварительно обученную модель и запускают процесс постобработки. Пайплайн сначала анализирует модель и определяет, какие слои внимания вносят наибольший вклад в её работу, а какие - не так уж и важны. Дальше он ищет оптимальное расположение для слоёв полного внимания и подбирает улучшенный дизайн для остальных блоков.

🟡JetBlock - модуль линейного внимания.

Его фишка - динамические сверточные ядра, генерируемые на лету в зависимости от входных данных и применяемые к value-токенам.

Прямое сравнение с Mamba2 Block, проведенное на идентичных данных и с одинаковыми параметрами обучения, показало существенный прирост в точности при сохранении той же пропускной способности во время обучения и инференса.

🟡Третий элемент успеха - аппаратно-ориентированный поиск архитектуры.

Вместо того чтобы использовать количество параметров в качестве прокси-метрики для эффективности, авторы напрямую оптимизируют архитектуру под целевое железо (H100), используя в качестве цели именно пропускную способность генерации.

Ключевое открытие тут в том, что размер KV-кэша, а не количество параметров, является критическим фактором, ограничивающим скорость генерации на длинных контекстах, поскольку декодирование упирается в пропускную способность памяти.

Фиксируя размер кэша, они провели поиск по размерности ключей/значений и числу голов внимания, обнаружив конфигурации, которые при том же объеме кэша и схожей пропускной способности используют больше параметров для достижения более высокой точности.

Итоговый дизайн Jet-Nemotron, построенный на базе Qwen 2.5, включает всего 2 full-attention слоя (для retrieval) и 2 слоя со скользящим вниманием (SWA, для MMLU), остальные — JetBlock.

Что касается конкретных моделей, то уже есть Jet-Nemotron-2B и Jet-Nemotron-4B. По результатам тестов, они как минимум не уступают по точности ведущим эффективным моделям, например, Qwen3, на целом ряде бенчмарков. При этом младшая модель Jet-Nemotron-2B работает в 21 раз быстрее, чем Qwen3-1.7B-Base, а старшая, Jet-Nemotron-4B, обгоняет её уже в 47 раз.

▶️ Код и веса моделей обещают опубликовать сразу после завершения юридической проверки.


🟡Страница проекта
🟡Arxiv
🖥GitHub (Coming Soon)


@ai_machinelearning_big_data

#AI #ML #LLM #NVIDIA #JetNemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5426🔥20💘2❤‍🔥1👏1