Forwarded from Machinelearning
Попросите любую LLM написать CUDA-код, и скорее всего, вы получите что-то, что либо не компилируется, либо работает мучительно медленно. Причина проста: качественного CUDA-кода в обучающих данных моделей почти не было.
Чтобы исправить это досадное упущение, Deep Reinforce AI создали систему CUDA-L1, которая основана на трехэтапном пайплайне: сначала supervised-обучение для освоения основ, затем self-supervised для практики и, наконец, контрастное обучение с подкреплением, чтобы было все максимально быстро.
Для этого существующий код был аугментирован - создавались его вариации, чтобы повысить насмотренность модели.
Обучаемой модели показывали несколько реализаций CUDA-ядер вместе с их показателями ускорения, например: «kernel_v1 дает ускорение 1.2x», «kernel_v2 — 2.8x», а «kernel_v3 — 1.5x». Затем задали 3 вопроса:
Таким образом, модель не гадает вслепую, а учится на конкретных примерах, анализируя причины разницы в производительности.
После обучения выяснилось, что более 30% сгенерированных реализаций пытались сжульничать - создавали дополнительные CUDA-потоки, которые выполнялись асинхронно.
Поскольку бенчмарк KernelBench отслеживал время только на основном потоке, код выглядел быстрее, чем был на самом деле, показывая фиктивное ускорение в 18 раз.
Другие уловки состояли в манипуляции гиперпараметрами задачи (уменьшение batch_size или размерностей) и кеширование результатов вычислений.
Во-первых, в качестве "адвоката дьявола" взяли adversarial-чекер на базе DeepSeek-R1, который анализировал код на предмет эксплойтов с точностью обнаружения более 60%.
Во-вторых, собрали базу данных из более чем 500 уникальных паттернов взлома, это повысило точность обнаружения на 25%.
И в-третьих, применили математическое сглаживание и нормализацию наград, где любое подозрительное ускорение (от 1.5x для простых операций) дополнительно проверялось.
Система успешно сгенерировала рабочий код для 249 из 250 задач, причем в 240 случаях код оказался быстрее базовой реализации.
Среднее ускорение по всем задачам составило 3.12 раза, максимальное - аж 120 раз. Медианное ускорение (50-й перцентиль) составило 1.42x, а 75-й перцентиль — 2.25x.
Производительность по уровням сложности задач распределилась следующим образом: на простых операциях среднее ускорение составило 2.78x, на последовательностях операторов - 3.55x, а на сложных задачах вроде полных слоев трансформера - 2.96x.
Код, оптимизированный на NVIDIA A100, был протестирован на других GPU. Результаты показали, что найденные паттерны оптимизации фундаментальны и работают на разных архитектурах.
Среднее ускорение на H100 составило 2.39x (успешных ускорений 227 из 250), на L40 — 3.12x (228/248), а на потребительской RTX 3090 — 2.50x (213/242).
@ai_machinelearning_big_data
#AI #ML #CUDA #DeepReinforce #ContrastiveRL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍10🔥5👨💻1
Forwarded from Machinelearning
На конференции SIGGRAPH 2025 Nvidia представила свою центральную концепцию — "Физический ИИ".
Это конвергенция ИИ и компьютерной графики для создания систем, способных действовать в реальном мире, будь то роботы, автономные автомобили или умная инфраструктура.
Для дата-центров представили GPU Nvidia RTX PRO 6000 Blackwell Server Edition для стандартных корпоративных серверов форм-фактора 2U. Системы на его базе смогут достигать до 45 раз более высокой производительности и в 18 раз лучшей энергоэффективности по сравнению с чисто процессорными решениями.
Тензорные ядра пятого поколения с поддержкой формата FP4 бустят инференс в 6 раз по сравнению с предыдущим поколением L40S.
Для рабочих станций анонсировали две компактные видеокарты: Nvidia RTX PRO 4000 SFF Edition и RTX PRO 2000 Blackwell.
Первая обеспечивает до 2.5 раз более высокую производительность в ИИ-задачах при том же энергопотреблении в 70 Вт, а вторая в 1.4 раза быстрее в CAD-приложениях.
Для Omniverse анонсировали новую библиотеку
NuRec
, которая реконструирует реальные окружения из данных сенсоров с помощью 3D Gaussian splatting. Приложения для симуляции Isaac Sim 5.0 и Isaac Lab 2.2 теперь доступны в виде опенсорс-проектов на GitHub.
В качестве примера показали кейс Amazon, где CAD-модели новых продуктов загружаются в Isaac Sim для генерации более 50 000 синтетических изображений. На этих данных обучаются ИИ-модели, которые затем управляют роботизированными манипуляторами для контроля качества продукции — и все это без каких-либо физических модификаций оборудования.
Для корпоративных задач линейку Nemotron расширили моделями Nemotron Nano 2 и Llama Nemotron Super 1.5. Они предназначены для выполнения сложных многоэтапных задач в кибербезопасности или клиентском сервисе.
Специально для "Физического ИИ" была разработана 7-миллиардная VLM Cosmos Reason. Ее задача - позволить роботам и агентам интерпретировать физический мир, используя априорные знания, понимание физики и "здравый смысл". Эту модель уже использует Uber для для анализа поведения автономных автомобилей.
Платформа дополнена интеграцией с VLM Cosmos Reason, новыми vision-моделями в TAO Toolkit и расширениями для Isaac Sim, позволяющие генерировать редкие сценарии обучения.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥6❤3
DINO создаёт высококачественные плотные признаки, отлично понимая как смысл (семантику) сцены, так и её геометрию.
Зачем это нужно:
Раньше на ImageNet лучшие результаты показывали модели с полной или слабой разметкой. Теперь DINOv3 с чистым SSL догнал их по качеству — и это огромный шаг вперёд.
Модель особенно хороша в задачах, где важны детальные признаки: мульти-модальные LLM, видео и 3D-анализ, робототехника, генеративные модели.
С замороженным ❄️ backbone DINOv3 получены новые рекорды:
- Обнаружение объектов: 66.1 mAP (COCO)
- Сегментация: 63 mIoU (ADE)
- Оценка глубины: 4.3 ARel (NYU)
Даже встраивание в готовые пайплайны даёт новый SOTA.
- ViT-7B — флагман
- ViT-S/S+/B/L/H+ (от 21M до 840M параметров)
- ConvNeXt — для быстрого инференса
- Text-aligned ViT-L (dino.txt)
- ViT-L/7B для спутниковых снимков
📡 Для спутниковых данных DINOv3 даёт топовые результаты в геопространственных задачах, например в оценке высоты деревьев, и создаёт впечатляющие карты признаков.
Это и есть магия SSL — универсальные признаки, которые работают в самых разных областях.
@machinelearning_interview
#dino3 #cv #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤3🥰3