Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
GitHub объявил о начале тарификации премиум-запросов в Copilot для всех платных планов с 18 июня 2025 года. Теперь пользователи будут получать ежемесячный лимит таких запросов, а неиспользованные остатки сгорают в конце месяца.
Премиум-запросы требуются для работы с мощными моделями вроде GPT-4.5 или Claude Opus 4, где каждый запрос умножается на коэффициент сложности (GPT-4.5 «съедает» 50 единиц за раз). Для бесплатного тарифа доступ ограничен: 2000 автодополнений кода и 50 премиум-запросов в месяц, причем все чаты считаются как "премиум".
Платные планы предлагают неограниченный доступ к базовым моделям (GPT-4.1, GPT-4o), но дополнительные запросы сверх лимита обойдутся в $0.04 за штуку. Если лимит исчерпан, можно переключиться на базовые модели — правда, их скорость зависит от нагрузки.
github.com
OpenAI предупредила, что ее будущие модели могут представлять повышенный риск создания биологического оружия. Чтобы предотвратить злоупотребления, OpenAI разрабатывает комплексную систему ограничений: обучение моделей игнорировать опасные запросы, автоматический мониторинг подозрительной активности, проверку экспертов и «Red Teams», тестирующие уязвимости.
Компания сотрудничает с лабораториями и правительствами, чтобы улучшить безопасность синтеза ДНК и создать системы раннего обнаружения патогенов. Для тех, кто работает с ИИ в научных целях, планируется отдельный доступ к мощным инструментам, при условии строгого контроля. В июле OpenAI проведет саммит по биозащите, чтобы объединить усилия государств и частного сектора в борьбе с новыми угрозами.
openai.com
Wix, популярный конструктор сайтов, приобрел Base44 — платформу вайбкодинга, позволяющую создавать приложения через текстовые запросы. Сделка оценивается в $80 млн, с возможными доплатами до 2029 года в зависимости от роста пользователей или выручки.
Base44 останется независимой, сохранив текущие инструменты: управление базами данных, аутентификацию, облачное хранение и хостинг. Платформа, насчитывающая 40 тыс. пользователей, недавно добавила чат-бота на основе ИИ для упрощения разработки.
techradar.com
YouTube подтвердил, что Google использует его архив из 20 млрд. видео для тренировки ИИ-моделей, включая Veo 3. Компания утверждает, что задействует лишь часть контента, соблюдая договоры с авторами, но не уточняет деталей. Создатели, чьи ролики могут попадать в обучающие наборы, не могут отключить такую опцию.
Эксперты опасаются, что это создаст конфликт интересов: ИИ, обученный на их материалах, может конкурировать с самими авторами. Некоторые уже выразили недовольство, подчеркнув, что не знали о таком использовании своего контента.
При этом ежедневно на YouTube добавляется несколько десятков миллионов новых видео - это потенциальный «корм» для алгоритмов. Вопрос регулирования ИИ и защиты прав авторов остаётся открытым, хотя YouTube ссылается на прозрачность своих политик.
cnbc.com
MiniMax, в рамках пятидневного марафона релизов "MiniMax Week" представила второе поколение видео-модели Hailuo 02, улучшенной за счет архитектуры NCR. Модель выросла в 3 раза по количеству параметров, при этом разработчики обещают улучшенное качество и разнообразие контента, но технические детали NCR пока не неизвестны.
Hailuo 02 справляется со сложными сценариями и по данным бенчмарка Artificial Analysis Video Arena она уступила только Bytedance Seedance, но обошла Google Veo 3.
Доступны 3 варианта генераций: 768p на 6/10 секунд и 1080p на 6 секунд. Цена в API за 6-секундный ролик в 768p — $0,28, а 1080p — $0,49. Модель доступна через веб-интерфейс, мобильное приложение или API.
mp.weixin.qq.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
OpenAI запустила Search Connectors для ChatGPT Pro и Team, функцию, которая напрямую связывает облачные хранилища (Google Drive, Dropbox и OneDrive) с интерфейсом чата. Теперь пользователи могут искать, анализировать и обобщать документы, не загружая их вручную.
Лимит файлов на проект для Pro-подписчиков вырос с 20 до 40, а поддержка охватывает 12 сервисов, включая GitHub, Gmail и Outlook. Пока новинка доступна за пределами ЕС, Великобритании и Швейцарии.
Open AI в сети Х
Imagen 4, усовершенствованные модели генерации изображений по текстовым запросам, стали доступны в двух версиях: базовая Imagen 4 (4 цента за изображение) для повседневных задач и Imagen 4 Ultra (6 центов) с повышенной детализацией и точностью исполнения инструкций. Обе модели доступны в Gemini API для платных пользователей, а также в ограниченном бесплатном тестировании через Google AI Studio.
Разработчики обещают улучшенное отображение текста на картинках и расширение тарифных планов в ближайшие недели. Все сгенерированные изображения получат скрытый цифровой водяной знак SynthID.
developers.googleblog.com
HPE и NVIDIA анонсировали совместные решения для создания «фабрик искусственного интеллекта» на базе модульной инфраструктуры. В линейку вошли серверы HPE ProLiant DL380a Gen12 с GPU NVIDIA RTX PRO 6000 Blackwell, которые предлагают универсальную платформу для генеративного и промышленного ИИ.
Также был представлен HPE Private Cloud AI — готовое решение для быстрого внедрения ИИ, совместимое с фреймворком NVIDIA Enterprise AI Factory. Для финансового сектора планируется тестирование агентного ИИ с Accenture, а 26 новых партнеров расширят экосистему HPE, добавив 70 преднастроенных сценариев: от детекции мошенничества до кибербезопасности. Решения доступны для заказа, а система HPE Compute XD690 с GPU Blackwell Ultra начнет отгружаться в октябре.
blogs.nvidia.com
AlphaGenome — нейросеть, которая предсказывает, как мутации в ДНК влияют на регуляцию генов. Модель обрабатывает участки длиной до миллиона пар оснований, анализируя их на уровне отдельных «букв» и оценивая тысячи молекулярных свойств: активность генов, сплайсинг РНК, доступность участков ДНК.
AlphaGenome сочетает сверточные слои для поиска коротких паттернов и трансформеры для анализа длинных последовательностей. Одна из ключевых особенностей - точное моделирование сплайс-сайтов, важное для изучения редких заболеваний.
Модель превзошла аналоги в 22 из 24 тестов, предсказывая как структуру ДНК, так и эффекты вариантов. Доступ к AlphaGenome открыт через API для некоммерческих проектов.
deepmind.google
Группа исследователей из Сингапура и Китая представила LongWriter-Zero, модель, которая генерирует тексты длиной более 10 тысяч слов, обучаясь только через RL, без использования синтетических данных. Модель опирается на три специализированных «наградных» алгоритма, оценивающих структуру, качество и длину текста, а также уникальный метод «усреднения преимущества», который балансирует приоритеты между ними.
LongWriter-Zero использует «промты-размышления»: перед написанием модель планирует структуру текста, улучшая его связность. Бенчмарки показали рост эффективности с 700 до 1200 поинтов Elo. Однако у модели есть слабые места: она склонна к повторам и переиспользованию слов, которые система поощряет в процессе обучения.
Модель и датасет доступны на Hugging Face.
huggingface.co
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5🥰4
Forwarded from Machinelearning
🧠 Как машинное обучение помогло заглянуть за пределы Стандартной модели в физике
На одной из самых престижных премий мира Breakthrough Prize 2025 отметили участников эксперимента LHCb на Большом адронном коллайдере — в их числе выпускники Школы анализа данных (ШАД) Яндекса и ученые НИУ ВШЭ. Они применили ML, чтобы улучшить анализ данных с коллайдера и сделать возможным открытие тетракварков и пентакварков — нестабильных частиц, предсказанных теорией.
🟠 Роль машинного обучения
Для анализа данных эксперимента использовались CatBoost, генеративные нейросети и алгоритмы интеллектуального отбора. Они позволили значительно повысить точность реконструкции траекторий частиц и отбор редких событий среди фона. Эффективность обработки выросла, особенно это заметно при работе с большими потоками коллайдерных данных.
🟠 Ключевые открытия
Тетракварки и пентакварки — новые экзотические частицы, состоящие из 4 и 5 кварков (в отличие от привычных протонов и нейтронов). Их открытие подтверждает Стандартную модель, но не переворачивает физику.
CP-нарушение — обнаружена асимметрия между материей и антиматерией, но ее масштаб недостаточен для объяснения дисбаланса во Вселенной.
🟠 Главный вопрос: почему материи больше, чем антиматерии?
Ученые подтвердили CP-нарушение, но его недостаточно для полного объяснения асимметрии. Требуется выполнение трёх условий Сахарова, два из которых пока не обнаружены.
🟠 Что дальше
Новые эксперименты в Дубне (BM@N, MPD, SPD) и возможное строительство коллайдера в Китае.
Поиск «новой физики» за пределами Стандартной модели.
⏩Полное интервью
@ai_machinelearning_big_data
#ML #AI #CatBoost #Physics #LHCb #ШАД #ВШЭ #BreakthroughPrize
На одной из самых престижных премий мира Breakthrough Prize 2025 отметили участников эксперимента LHCb на Большом адронном коллайдере — в их числе выпускники Школы анализа данных (ШАД) Яндекса и ученые НИУ ВШЭ. Они применили ML, чтобы улучшить анализ данных с коллайдера и сделать возможным открытие тетракварков и пентакварков — нестабильных частиц, предсказанных теорией.
Для анализа данных эксперимента использовались CatBoost, генеративные нейросети и алгоритмы интеллектуального отбора. Они позволили значительно повысить точность реконструкции траекторий частиц и отбор редких событий среди фона. Эффективность обработки выросла, особенно это заметно при работе с большими потоками коллайдерных данных.
Тетракварки и пентакварки — новые экзотические частицы, состоящие из 4 и 5 кварков (в отличие от привычных протонов и нейтронов). Их открытие подтверждает Стандартную модель, но не переворачивает физику.
CP-нарушение — обнаружена асимметрия между материей и антиматерией, но ее масштаб недостаточен для объяснения дисбаланса во Вселенной.
Ученые подтвердили CP-нарушение, но его недостаточно для полного объяснения асимметрии. Требуется выполнение трёх условий Сахарова, два из которых пока не обнаружены.
Новые эксперименты в Дубне (BM@N, MPD, SPD) и возможное строительство коллайдера в Китае.
Поиск «новой физики» за пределами Стандартной модели.
⏩Полное интервью
@ai_machinelearning_big_data
#ML #AI #CatBoost #Physics #LHCb #ШАД #ВШЭ #BreakthroughPrize
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍2🤣1
🤖 Цукерберг идёт ва-банк: ставка на суперИИ и $14.3 млрд за контроль над Scale AI
Миллиардер официально заявил о своих амбициях в гонке за суперинтеллектом:
💰 Компания вложила $14.3 млрд в Scale AI и забрала себе не только долю, но и её основателя Александра Ванга — теперь он возглавляет новое стратегическое направление Meta по созданию суперИИ.
👥 Параллельно Цукерберг собирает “звёздную команду” из 50+ топ-исследователей, переманивая людей из OpenAI, DeepMind и других AI-групп с предложениями до $100 млн в опционах. В индустрии это уже называют "Zuck Bucks".
📌 Зачем это всё:
• Llama 4 оказался слабее ожиданий
• Meta хочет не просто догнать конкурентов, а построить AGI на своих условиях
• Scale даёт доступ к инфраструктуре и огромным объёмам размеченных данных
⚠️ Но есть и проблемы:
• Google и OpenAI уже свернули сотрудничество со Scale после сделки
• Внутри компании есть разногласия — Ян Лекун скептически относится к LLM‑подходу к AGI
• На рынке задаются вопросом: зачем строить “суперинтеллект”, если нет killer-продукта?
📉 Это может быть самым амбициозным (или самым дорогим) экспериментом компании со времён метавселенной.
@machinelearning_interview
#AGI #superintelligence #Zuckerberg #ScaleAI #AI #OpenAI #DeepMind #Llama4
Миллиардер официально заявил о своих амбициях в гонке за суперинтеллектом:
💰 Компания вложила $14.3 млрд в Scale AI и забрала себе не только долю, но и её основателя Александра Ванга — теперь он возглавляет новое стратегическое направление Meta по созданию суперИИ.
👥 Параллельно Цукерберг собирает “звёздную команду” из 50+ топ-исследователей, переманивая людей из OpenAI, DeepMind и других AI-групп с предложениями до $100 млн в опционах. В индустрии это уже называют "Zuck Bucks".
📌 Зачем это всё:
• Llama 4 оказался слабее ожиданий
• Meta хочет не просто догнать конкурентов, а построить AGI на своих условиях
• Scale даёт доступ к инфраструктуре и огромным объёмам размеченных данных
⚠️ Но есть и проблемы:
• Google и OpenAI уже свернули сотрудничество со Scale после сделки
• Внутри компании есть разногласия — Ян Лекун скептически относится к LLM‑подходу к AGI
• На рынке задаются вопросом: зачем строить “суперинтеллект”, если нет killer-продукта?
📉 Это может быть самым амбициозным (или самым дорогим) экспериментом компании со времён метавселенной.
@machinelearning_interview
#AGI #superintelligence #Zuckerberg #ScaleAI #AI #OpenAI #DeepMind #Llama4
🔥10❤5👍2🤔2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Медиагигант TIME включил DeepMind в свой рейтинг TIME100-2025 в категории «Влияние в ИИ». Это отдельная категория признания пяти выдающихся компаний, которые внесли значимый вклад в развитие своих областей.
В 2024 году создатели AlphaFold из Google DeepMind получили Нобелевскую премию по химии, но помимо научных достижений, DeepMind активно развивает языковые общедоступные модели: Gemini 2.5 Pro до сих пор лидирует в тестах на «интеллект».
CEO Google DeepMind Демис Хассабис мечтает создать «универсального цифрового ассистента», способного не только помогать пользователям, но и проводить самостоятельные научные исследования.
time.com
15 европейских СМИ из 7 стран запустили Chat Europe, платформу на основе ИИ, которая обещает предоставлять новости о ЕС без дезинформации. Проект финансируется ЕС, использует модель Mistral и был разработан румынской компанией DRUID AI.
Пользовательские тесты показали проблемы: система часто ссылается на устаревшие данные и дает нерелевантные ответы. Например, запрос о ситуации в Германии выдал устаревшую информацию 2010 года, в то время как ChatGPT с веб-поиском - дал актуальный и всесторонний ответ.
Создатели чатбота заявляют непредвзятость сервиса и проверенные источники, но реальность пока не соответствует этим утверждениям. Эксперты ждут улучшений: если чатбот не научится отслеживать события в реальном времени, его польза останется под вопросом.
presseportal.de
OpenAI активно развивает консалтинговое направление для бизнеса, предлагая клиентам персонализацию моделей GPT-4o под их данные и разработку приложений - от чат-ботов до аналитических инструментов. За такие услуги компания запрашивает от $10 млн, ставя себя в один ряд с Palantir и Accenture.
Среди клиентов направления - Министерство обороны США и азиатский техногигант Grab. OpenAI явно стремится закрепиться не только как лаборатория для исследований, но и как партнер для масштабных внедрений.
theinformation.com
Huawei анонсировала открытый доступ к своей серии языковых моделей Pangu: компактной Pangu 7B и флагманской Pangu Pro MoE с 72 миллиардами параметров. Обе модели оптимизированы для инференса на чипах Ascend. Исходный код, веса и инструменты для работы с MoE-архитектурами уже доступны на платформе GitCode.
Разработчики получают возможность тестировать решения на чипах Huawei, что актуально в условиях санкций. Меньшая версия Pangu 7B в открытом доступе появится позже.
ecns.cn
Cloudflare начал блокировать ИИ-краулеры по умолчанию, теперь новые сайты автоматически получают опцию запрета сканирования без разрешения, а бета-версия сервиса Pay Per Crawl позволит монетизировать доступ.
Новый протокол идентификации ботов поможет сайтам отсеивать анонимных скраперов, требуя раскрытия целей сбора данных. Поддержку инициативе выразили крупнейшие медиахолдинги и цифровые площадки, они давно говорят о важности компенсации за использование контента.
cloudflare.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍4🔥2
Forwarded from Machinelearning
Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения.
Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование.
В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla.
Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее.
Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей.
С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы.
Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости.
Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик.
Точное восприятие мира совершенно не гарантирует точного прогноза.
Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий.
Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания.
У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет.
@ai_machinelearning_big_data
#AI #ML #VLM #Benchmark #Maitrix
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥5👍4
Forwarded from Machinelearning
Исследователи из из Гонконгского университета и инженеры Alibaba научили LLM генерировать семантически разные ответы, заставляя их «думать» в ортогональных направлениях.
Наверняка каждый, кто работает с LLM, сталкивался с их любовью к самоповторам. Запрашиваешь несколько вариантов решения, а получаешь одну и ту же мысль, просто перефразированную.
Стандартные подходы к декодированию,
temperature sampling
или diverse beam search
, создают лишь лексическое разнообразие, но пасуют, когда требуется семантическое. Это серьезная проблема для Best-of-N или RLHF. Ведь без по-настоящему разных идей и подходов к решению задачи эти методы теряют свою силу: выбирать лучший вариант не из чего, а обучать модель на однотипных примерах неэффективно.Решение предложили в методе SemDiD (Semantic-guided Diverse Decoding). Его суть, если кратко, перестать играть с токенами на поверхности и начать управлять генерацией напрямую в пространстве эмбеддингов.
Сначала, на старте, он принудительно направляет разные группы beams по ортогональным векторам в семантическом пространстве. Грубо говоря, это как дать команду разным поисковым группам двигаться строго на север, юг и запад, чтобы они гарантированно разошлись.
По мере генерации, когда жесткие директивы могут стать неоптимальными, включается второй механизм -
inter-group repulsion
. Он просто следит, чтобы смысловые траектории ответов не сближались, сохраняя их уникальность до самого конца.Но как, гоняясь за разнообразием, не получить на выходе бессвязный бред?
SemDiD подходит к контролю качества уникально. Он не пытается слепо максимизировать вероятность последовательности, а использует ее лишь как нижнюю границу, чтобы отсечь совсем уж плохие варианты.
Кроме того, алгоритм корректирует системные искажения, когда вероятность токенов искусственно завышается в зависимости от их позиции в тексте.
Для баланса между качеством и разнообразием используется адаптивный механизм на основе гармонического среднего, который в каждый момент времени уделяет больше внимания той метрике, которая проседает.
На бенчмарках для Best-of-N, от MMLU-Pro+ до GSM8K, SemDiD увеличивает покрытие (шанс найти верный ответ) на 1.4%-5.2% по сравнению с аналогами.
Генерируя для GRPO или RLOO семантически богатые наборы ответов, SemDiD предоставляет им более качественный материал для обучения. Это ускоряет сходимость на 15% и повышает финальную точность моделей.
@ai_machinelearning_big_data
#AI #ML #LLM #SemDiD
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍7🔥4
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Власти КНДР объявили о реформе системы образования, в рамках которой в ведущих университетах страны создаются новые специальности, связанные с искусственным интеллектом. Согласно официальной партийной газете «Нодон синмун», это нужно для подготовки талантов, необходимых для «требований времени».
Этот шаг подтверждает давний интерес страны к передовым технологиям. Исследовательский институт ИИ при Университете имени Ким Ир Сена уже заявил о цели «использовать технологию GPT для замены умственного труда человека». Ранее сообщалось об использовании в институте американского ChatGPT, а научные издания страны посвящали спецвыпуски этой технологии. Аналитики полагают, что Пхеньян намерен применять ИИ не только для технологического развития, но и для укрепления государственного контроля и в разведывательной деятельности.
Lianhe Zaobao
OpenAI готовится в течение нескольких недель запустить собственный веб-браузер с глубокой интеграцией искусственного интеллекта. Новый продукт будет построен на Chromium, но предложит уникальные функции: встроенное окно для общения в стиле ChatGPT и поддержку ИИ-агентов. Эти агенты смогут автономно выполнять задачи пользователей, от бронирования отелей до заполнения онлайн-форм.
Ключевая идея состоит в удержании пользователя внутри интерфейса браузера, а не перенаправлять на внешние сайты. как это происходит сейчаc в ChatGPT. Если OpenAI удастся привлечь хотя бы часть из 500 миллионов еженедельных пользователей ChatGPT, это может серьезно пошатнуть рекламную бизнес-модель Google, которая во многом опирается на данные, собираемые через Chrome.
reuters.com
Модель генерации изображений в стиле аниме основана на Stable Diffusion 1.5, генерирует в разрешении до 1024x1024 пикселей и использует предпоследний слой энкодера CLIP.
Diffusion Anime V2 распространяется под двойной лицензией, которая допускает только некоммерческое использование с обязательным указанием авторства. NovelAI напоминает, что V2 является устаревшей версией, а все новые модели остаются проприетарными и эксклюзивными для их веб-сервиса. Веса Diffusion Anime V2 доступны на Hugging Face.
blog.novelai.net
С 15 июля YouTube вводит более строгие правила для своей партнерской программы, нацеленные на борьбу с массово создаваемыми и повторяющимися видео. Это ответ сервиса на рост генеративных ИИ-инструментов, которые значительно упрощают производство подобного контента.
Хотя представители платформы называют это «незначительным обновлением» и утверждают, что такой контент и раньше не подлежал монетизации, новые правила вносят больше ясности. Ужесточение рассматривается как превентивная мера для защиты YouTube от наплыва низкокачественных видео, способных нанести ущерб репутации и ценности платформы.
techcrunch.com
Google начала развертывание своего ИИ-ассистента Gemini на умных часах, заменяя Google Assistant на носимых устройствах. Обновление уже доступно для Pixel Watch и в ближайшие недели появится на моделях от Samsung, OPPO, OnePlus, Xiaomi и других производителей под управлением Wear OS 4 или новее.
Новый ассистент на часах поддерживает текстовые, голосовые и графические запросы. Активировать Gemini можно привычной командой «Hey Google» или долгим нажатием боковой кнопки. Благодаря глубокой интеграции с сервисами Google, пользователи смогут выполнять многошаговые команды прямо с запястья: просить создать плейлист в YouTube Music или кратко изложить содержание последних писем в Gmail.
Вместе с этим, компания улучшила функцию визуального поиска Circle to Search, добавив в нее специальный "AI Mode" для получения контекстной информации. Улучшение доступно пока только для США и Индии на Android и iOS.
9to5google.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤2🔥2🥰2
🍏 Apple всерьёз задумалась о покупке Mistral — Bloomberg / Марк Гурман
По информации Bloomberg, Apple серьёзно рассматривает покупку французского стартапа Mistral AI, чтобы наконец войти в ИИ-гонку.
Это очень поздний шаг — но он показывает, насколько сильно Apple отстала от OpenAI, Google и даже xAI.
Пока другие выкатывают публичные LLM, мультимодальные ассистенты и интеграции в поиске, Apple остаётся в роли наблюдателя.
📌 Почему это важно:
- Mistral — один из главных open-source игроков на рынке ИИ (выпускают мощные LLM и Mixture of Experts-модели)
- У Apple пока нет ни собственной модели, ни сильной стратегии в области ИИ
- Приобретение Mistral может стать экстренной попыткой догнать конкурентов
Если сделка состоится — это будет крупнейший AI-манёвр Apple за всё время.
#Apple #Mistral #AI #LLM #ГонкаИИ
@machinelearning_interview
По информации Bloomberg, Apple серьёзно рассматривает покупку французского стартапа Mistral AI, чтобы наконец войти в ИИ-гонку.
Это очень поздний шаг — но он показывает, насколько сильно Apple отстала от OpenAI, Google и даже xAI.
Пока другие выкатывают публичные LLM, мультимодальные ассистенты и интеграции в поиске, Apple остаётся в роли наблюдателя.
📌 Почему это важно:
- Mistral — один из главных open-source игроков на рынке ИИ (выпускают мощные LLM и Mixture of Experts-модели)
- У Apple пока нет ни собственной модели, ни сильной стратегии в области ИИ
- Приобретение Mistral может стать экстренной попыткой догнать конкурентов
Если сделка состоится — это будет крупнейший AI-манёвр Apple за всё время.
#Apple #Mistral #AI #LLM #ГонкаИИ
@machinelearning_interview
❤6👍4🔥2
🚀 15 AI‑инструментов, которые стоит взять на вооружение
Подборка популярных инструментов, которые уже сегодня помогают создавать, автоматизировать и масштабировать работу быстрее в разы:
🎬 Работа с видео
1. Runway.ml — генерация видео по тексту
2. Veed.io — монтаж, субтитры, озвучка онлайн
3. Invideo.io — создание роликов за минуты
🧠 Помощь в мышлении и генерации
4. ChatGPT.com — ассистент для ресёрча, генерации и правок
5. Grok.com — AI-помощник с быстрым доступом к знаниям
6. Deepseek.ai — генерация и анализ текста
7. Claude.ai — диалоговый ассистент от Anthropic
8. Perplexity.ai — умный поисковик с цитируемыми источниками
💻 Код, задачи и коммуникации
9. Cursor.com — AI-помощник для программиста
10. Notion.com — организация, заметки, задачи с AI-поддержкой
11. HubSpot.com — маркетинг, автоматизация и CRM
12. Canva.com — графика, презентации, визуал для соцсетей
13. Figma.com — интерфейсы, прототипы, совместная работа
🎨 Творчество
14. Midjourney.com — генерация изображений по промптам
15. RecCloud.com — быстрые AI-клипы и нарезки видео
#AI #FutureOfWork #Productivity #AItools #Automation
@machinelearning_interview
Подборка популярных инструментов, которые уже сегодня помогают создавать, автоматизировать и масштабировать работу быстрее в разы:
🎬 Работа с видео
1. Runway.ml — генерация видео по тексту
2. Veed.io — монтаж, субтитры, озвучка онлайн
3. Invideo.io — создание роликов за минуты
🧠 Помощь в мышлении и генерации
4. ChatGPT.com — ассистент для ресёрча, генерации и правок
5. Grok.com — AI-помощник с быстрым доступом к знаниям
6. Deepseek.ai — генерация и анализ текста
7. Claude.ai — диалоговый ассистент от Anthropic
8. Perplexity.ai — умный поисковик с цитируемыми источниками
💻 Код, задачи и коммуникации
9. Cursor.com — AI-помощник для программиста
10. Notion.com — организация, заметки, задачи с AI-поддержкой
11. HubSpot.com — маркетинг, автоматизация и CRM
12. Canva.com — графика, презентации, визуал для соцсетей
13. Figma.com — интерфейсы, прототипы, совместная работа
🎨 Творчество
14. Midjourney.com — генерация изображений по промптам
15. RecCloud.com — быстрые AI-клипы и нарезки видео
#AI #FutureOfWork #Productivity #AItools #Automation
@machinelearning_interview
🥱10❤5👍4🔥3
🧠 Андрей Карпаты выпустил интересный пост о масштабировании RL.
Все говорят о масштабировании RL — и не зря. Но ощущение, что это только часть большой картины.
Вчера обсуждали с другом: Reinforcement Learning даёт более масштабируемую обратную связь, чем SFT, и это действительно мощный рычаг. Вместо явных меток — просто: "получилось хорошо → усилим действия", "плохо → ослабим". Но...
🔸 Проблема №1 — асимптотика
Как только задача выходит за пределы секунд и становится минутами/часами взаимодействий, RL сводится к тому, что ты делаешь тонну действий, чтобы в конце получить одну скалярную метку — и по ней обновить весь градиент? Это кажется неэффективным.
🔸 Проблема №2 — не по-человечески
Мы (люди) улучшаемся не только по результату "успех/провал". Мы рефлексируем:
- Что сработало?
- Что нет?
- Что стоит попробовать в следующий раз?
Этот "урок" мы потом либо держим в голове, либо записываем. Он становится частью интуиции или инструкции. В языке это называют *second nature*.
И таких механизмов в обучении ИИ пока нет.
🔍 Пример алгоритма:
1. Несколько rollout'ов
2. Все примеры + награды → в один контекст
3. Промпт на рефлексию: *"Что сработало? Что улучшить?"*
4. Сгенерированная строка → системный промпт или база "уроков"
Это и есть lesson-инъекция. Например, в Claude было явно прописано:
> "Если тебя просят посчитать буквы — раздели по запятым и считай по одному"
Это патч-урок, не выученный, а вручную внедрённый. Вопрос: как заставить агента учить такие уроки сам? И — как потом их дистиллировать, чтобы не раздувать контекст?
🧭 TLDR:
- RL будет давать приросты — оно более “горькое”, но и более leverage‑friendly, чем SFT
- Но это не вся история
- Реальные "S-кривые" могут скрываться в новых парадигмах обучения, которые специфичны для LLM и не похожи на Atari или роботов
- Возможно, "рефлексия → урок → встроенная привычка" — это один из недостающих слоёв в современных системах
#AI #RL #LLM #agenticlearning #meta #reinforcementlearning
@machinelearning_interview
Все говорят о масштабировании RL — и не зря. Но ощущение, что это только часть большой картины.
Вчера обсуждали с другом: Reinforcement Learning даёт более масштабируемую обратную связь, чем SFT, и это действительно мощный рычаг. Вместо явных меток — просто: "получилось хорошо → усилим действия", "плохо → ослабим". Но...
🔸 Проблема №1 — асимптотика
Как только задача выходит за пределы секунд и становится минутами/часами взаимодействий, RL сводится к тому, что ты делаешь тонну действий, чтобы в конце получить одну скалярную метку — и по ней обновить весь градиент? Это кажется неэффективным.
🔸 Проблема №2 — не по-человечески
Мы (люди) улучшаемся не только по результату "успех/провал". Мы рефлексируем:
- Что сработало?
- Что нет?
- Что стоит попробовать в следующий раз?
Этот "урок" мы потом либо держим в голове, либо записываем. Он становится частью интуиции или инструкции. В языке это называют *second nature*.
И таких механизмов в обучении ИИ пока нет.
🔍 Пример алгоритма:
1. Несколько rollout'ов
2. Все примеры + награды → в один контекст
3. Промпт на рефлексию: *"Что сработало? Что улучшить?"*
4. Сгенерированная строка → системный промпт или база "уроков"
Это и есть lesson-инъекция. Например, в Claude было явно прописано:
> "Если тебя просят посчитать буквы — раздели по запятым и считай по одному"
Это патч-урок, не выученный, а вручную внедрённый. Вопрос: как заставить агента учить такие уроки сам? И — как потом их дистиллировать, чтобы не раздувать контекст?
🧭 TLDR:
- RL будет давать приросты — оно более “горькое”, но и более leverage‑friendly, чем SFT
- Но это не вся история
- Реальные "S-кривые" могут скрываться в новых парадигмах обучения, которые специфичны для LLM и не похожи на Atari или роботов
- Возможно, "рефлексия → урок → встроенная привычка" — это один из недостающих слоёв в современных системах
#AI #RL #LLM #agenticlearning #meta #reinforcementlearning
@machinelearning_interview
👍25❤15🔥4🍓4🤪1
Forwarded from Machinelearning
Архитектура Mixture-of-Recursions (MoR), предложенная Google в соавторстве с KAIST AI объединяет в едином фреймворке традиционные подходы разделения параметров и адаптивные вычисления, заставляя модель думать над каждым токеном с разной глубиной.
Под капотом MoR - рекурсивный трансформер, который прогоняет входные данные через один и тот же блок слоев несколько раз. Но главная фишка в том, что количество этих прогонов, или глубина рекурсии, не фиксированное, а динамическое и определяется для каждого токена индивидуально.
Легковесный обучаемый роутер анализирует токен и решает, сколько вычислительных усилий на него потратить. Простые слова могут пройти всего один цикл рекурсии, в то время как семантически нагруженные термины отправятся на более глубокую обработку из нескольких циклов.
Это дает два главных преимущества:
При одинаковом бюджете на обучение (в FLOPs) и меньшем размере самой модели MoR показывает более низкую перплексию и лучшие результаты в few-shot задачах, чем стандартные и рекурсивные аналоги.
@ai_machinelearning_big_data
#AI #ML #LLM #Architecture #MoR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤28👍9🔥5😁4
🧠 Intern-S1 — мощная open-source модель для мультимодальных научных задач
Команда InternLM представила Intern-S1 — продвинутую модель, способную обрабатывать и текст, и изображения, включая научные данные.
Что под капотом:
– Языковая модель 235B (MoE) + визуальный энкодер 6B
– Предобучена на 5 триллионах токенов, больше половины — научные данные
– Понимает молекулярные формулы, белковые последовательности, сейсмические сигналы — благодаря динамическому токенизатору
– Сопоставима по качеству с закрытыми коммерческими моделями в научных бенчмарках
🤗 HuggingFace: https://huggingface.co/internlm/Intern-S1-FP8
💻 GitHub: https://github.com/InternLM/Intern-S1
🌐 Онлайн-демо: https://chat.intern-ai.org.cn
@machinelearning_interview
#ml #ai #Intern
Команда InternLM представила Intern-S1 — продвинутую модель, способную обрабатывать и текст, и изображения, включая научные данные.
Что под капотом:
– Языковая модель 235B (MoE) + визуальный энкодер 6B
– Предобучена на 5 триллионах токенов, больше половины — научные данные
– Понимает молекулярные формулы, белковые последовательности, сейсмические сигналы — благодаря динамическому токенизатору
– Сопоставима по качеству с закрытыми коммерческими моделями в научных бенчмарках
🤗 HuggingFace: https://huggingface.co/internlm/Intern-S1-FP8
💻 GitHub: https://github.com/InternLM/Intern-S1
🌐 Онлайн-демо: https://chat.intern-ai.org.cn
@machinelearning_interview
#ml #ai #Intern
❤24🔥11👍7😁2👨💻2
👀 ByteDance тоже радует диффузионные LLM!
🚀 Seed Diffusion Preview – сверхбыстрый LLM для кодинга на базе дискретной диффузии.
⚡ 2 146 токенов/с на H20 GPU – опережает Mercury & Gemini Diffusion, при этом не уступая им по качеству на бенчмарках.
🏆 Новый SOTA на Pareto-фронтире «скорость–качество».
🟠 Paper: https://lf3-static.bytednsdoc.com/obj/eden-cn/hyvsmeh7uhobf/sdiff_updated.pdf
🟠 Project: https://seed.bytedance.com/seed_diffusion
🟠 Demo: https://studio.seed.ai/exp/seed_diffusion
@machinelearning_interview
#AI #LLM #Diffusion #ByteDance #SeedDiffusionPreview
🚀 Seed Diffusion Preview – сверхбыстрый LLM для кодинга на базе дискретной диффузии.
⚡ 2 146 токенов/с на H20 GPU – опережает Mercury & Gemini Diffusion, при этом не уступая им по качеству на бенчмарках.
🏆 Новый SOTA на Pareto-фронтире «скорость–качество».
@machinelearning_interview
#AI #LLM #Diffusion #ByteDance #SeedDiffusionPreview
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍10❤7👨💻1
Forwarded from Machinelearning
Попросите любую LLM написать CUDA-код, и скорее всего, вы получите что-то, что либо не компилируется, либо работает мучительно медленно. Причина проста: качественного CUDA-кода в обучающих данных моделей почти не было.
Чтобы исправить это досадное упущение, Deep Reinforce AI создали систему CUDA-L1, которая основана на трехэтапном пайплайне: сначала supervised-обучение для освоения основ, затем self-supervised для практики и, наконец, контрастное обучение с подкреплением, чтобы было все максимально быстро.
Для этого существующий код был аугментирован - создавались его вариации, чтобы повысить насмотренность модели.
Обучаемой модели показывали несколько реализаций CUDA-ядер вместе с их показателями ускорения, например: «kernel_v1 дает ускорение 1.2x», «kernel_v2 — 2.8x», а «kernel_v3 — 1.5x». Затем задали 3 вопроса:
Таким образом, модель не гадает вслепую, а учится на конкретных примерах, анализируя причины разницы в производительности.
После обучения выяснилось, что более 30% сгенерированных реализаций пытались сжульничать - создавали дополнительные CUDA-потоки, которые выполнялись асинхронно.
Поскольку бенчмарк KernelBench отслеживал время только на основном потоке, код выглядел быстрее, чем был на самом деле, показывая фиктивное ускорение в 18 раз.
Другие уловки состояли в манипуляции гиперпараметрами задачи (уменьшение batch_size или размерностей) и кеширование результатов вычислений.
Во-первых, в качестве "адвоката дьявола" взяли adversarial-чекер на базе DeepSeek-R1, который анализировал код на предмет эксплойтов с точностью обнаружения более 60%.
Во-вторых, собрали базу данных из более чем 500 уникальных паттернов взлома, это повысило точность обнаружения на 25%.
И в-третьих, применили математическое сглаживание и нормализацию наград, где любое подозрительное ускорение (от 1.5x для простых операций) дополнительно проверялось.
Система успешно сгенерировала рабочий код для 249 из 250 задач, причем в 240 случаях код оказался быстрее базовой реализации.
Среднее ускорение по всем задачам составило 3.12 раза, максимальное - аж 120 раз. Медианное ускорение (50-й перцентиль) составило 1.42x, а 75-й перцентиль — 2.25x.
Производительность по уровням сложности задач распределилась следующим образом: на простых операциях среднее ускорение составило 2.78x, на последовательностях операторов - 3.55x, а на сложных задачах вроде полных слоев трансформера - 2.96x.
Код, оптимизированный на NVIDIA A100, был протестирован на других GPU. Результаты показали, что найденные паттерны оптимизации фундаментальны и работают на разных архитектурах.
Среднее ускорение на H100 составило 2.39x (успешных ускорений 227 из 250), на L40 — 3.12x (228/248), а на потребительской RTX 3090 — 2.50x (213/242).
@ai_machinelearning_big_data
#AI #ML #CUDA #DeepReinforce #ContrastiveRL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍10🔥5👨💻1
🚨 MiniCPM‑V 4.0 - не chatgpt едимным!
✨ Что нового:
— 🧱 4.1B параметров
— 🧠 По визуальному пониманию догоняет GPT‑4.1‑mini (по OpenCompass)
— ⚡ Работает на iPhone 16 Pro Max — 17.9 токенов/сек
— 📊 69.0 баллов на OpenCompass (против 65.2 у MiniCPM‑V 2.6 8B)
— 🔥 Маленькая модель, большая мощность
📁 GitHub: https://github.com/OpenBMB/MiniCPM-o
🤗 Hugging Face: https://huggingface.co/openbmb/MiniCPM-V-4
#AI #LLM #MLLMs #MiniCPM #EdgeAI
✨ Что нового:
— 🧱 4.1B параметров
— 🧠 По визуальному пониманию догоняет GPT‑4.1‑mini (по OpenCompass)
— ⚡ Работает на iPhone 16 Pro Max — 17.9 токенов/сек
— 📊 69.0 баллов на OpenCompass (против 65.2 у MiniCPM‑V 2.6 8B)
— 🔥 Маленькая модель, большая мощность
📁 GitHub: https://github.com/OpenBMB/MiniCPM-o
🤗 Hugging Face: https://huggingface.co/openbmb/MiniCPM-V-4
#AI #LLM #MLLMs #MiniCPM #EdgeAI
🔥23❤5👍4👨💻2
🚀 Qwen3-30B-A3B-2507 и Qwen3-235B-A22B-2507 теперь поддерживают контекст до 1 млн токенов!
🔧 Технологии под капотом:
• Dual Chunk Attention (DCA) — метод экстраполяции длины, который делит длинные последовательности на управляемые блоки, сохраняя глобальную связность.
• MInference — разреженное внимание, уменьшающее вычислительные затраты за счёт фокуса на ключевых токенах.
💡 Что это даёт:
- Более высокая точность генерации на длинных контекстах
- До 3× быстрее инференс на последовательностях, близких к 1M токенов
- ✅ Полная совместимость с vLLM и SGLang для эффективного развёртывания
📄 Подробности и включение функции — в карточках моделей:
https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507
#Qwen #LLM #AI #LongContext
🔧 Технологии под капотом:
• Dual Chunk Attention (DCA) — метод экстраполяции длины, который делит длинные последовательности на управляемые блоки, сохраняя глобальную связность.
• MInference — разреженное внимание, уменьшающее вычислительные затраты за счёт фокуса на ключевых токенах.
💡 Что это даёт:
- Более высокая точность генерации на длинных контекстах
- До 3× быстрее инференс на последовательностях, близких к 1M токенов
- ✅ Полная совместимость с vLLM и SGLang для эффективного развёртывания
📄 Подробности и включение функции — в карточках моделей:
https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-235B-A22B-Thinking-2507
https://huggingface.co/Qwen/Qwen3-30B-A3B-Instruct-2507
https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507
https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Instruct-2507
https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507
#Qwen #LLM #AI #LongContext
❤15👍8🔥4👨💻1
🧠 SmallThinker — новая серия LLM, нативно обученная для локального запуска
SmallThinker — это семейство языковых моделей, созданное с нуля для запуска на обычных устройствах:
📉 низкая память, 🐌 медленное хранилище, ❌ без GPU — и всё это без потери качества.
🔧 Технологии под капотом:
• Двухуровневая разреженность: MoE + sparse ReGLU (>60% нейронов неактивны)
• Pre-attention router: предсказание нужных экспертов заранее → читаем с SSD параллельно
• NoPE-RoPE гибрид: 1:3 глобальное:локальное внимание → KV-кэш в 4 раза меньше
• Кэширование и оффлоадинг экспертов → экономим CPU и дисковый ввод
• Sparse LM head: предсказываем подмножество словаря, не нужен полный софтмакс
• Чекпойнт-мёрджинг: баланс между универсальностью и инструкционной точностью
⚙️ Производительность (CPU-only, Q4_0):
• 🪶 4B-A0.6B (1 ГБ ОЗУ): 82.3% HumanEval, 66.1% MMLU, 108 ток/с
• 🚀 21B-A3B (8 ГБ ОЗУ): 89.6% HumanEval, 84.4% MMLU — на уровне Qwen3‑30B, но с 85× меньшим потреблением памяти
🏃♂️ Работает на CPU, ARM, Raspberry Pi — 20–108 токенов/сек.
📦 Полностью open-source. Готово к локальному использованию без компромиссов.
#LLM #SmallThinker #AI #LocalLLM #OpenSource
HF: https://huggingface.co/PowerInfer
PAPER: https://arxiv.org/abs/2507.20984
SmallThinker — это семейство языковых моделей, созданное с нуля для запуска на обычных устройствах:
📉 низкая память, 🐌 медленное хранилище, ❌ без GPU — и всё это без потери качества.
🔧 Технологии под капотом:
• Двухуровневая разреженность: MoE + sparse ReGLU (>60% нейронов неактивны)
• Pre-attention router: предсказание нужных экспертов заранее → читаем с SSD параллельно
• NoPE-RoPE гибрид: 1:3 глобальное:локальное внимание → KV-кэш в 4 раза меньше
• Кэширование и оффлоадинг экспертов → экономим CPU и дисковый ввод
• Sparse LM head: предсказываем подмножество словаря, не нужен полный софтмакс
• Чекпойнт-мёрджинг: баланс между универсальностью и инструкционной точностью
⚙️ Производительность (CPU-only, Q4_0):
• 🪶 4B-A0.6B (1 ГБ ОЗУ): 82.3% HumanEval, 66.1% MMLU, 108 ток/с
• 🚀 21B-A3B (8 ГБ ОЗУ): 89.6% HumanEval, 84.4% MMLU — на уровне Qwen3‑30B, но с 85× меньшим потреблением памяти
🏃♂️ Работает на CPU, ARM, Raspberry Pi — 20–108 токенов/сек.
📦 Полностью open-source. Готово к локальному использованию без компромиссов.
#LLM #SmallThinker #AI #LocalLLM #OpenSource
HF: https://huggingface.co/PowerInfer
PAPER: https://arxiv.org/abs/2507.20984
🔥23👍13🥰10❤3👨💻1
Forwarded from Machinelearning
На конференции SIGGRAPH 2025 Nvidia представила свою центральную концепцию — "Физический ИИ".
Это конвергенция ИИ и компьютерной графики для создания систем, способных действовать в реальном мире, будь то роботы, автономные автомобили или умная инфраструктура.
Для дата-центров представили GPU Nvidia RTX PRO 6000 Blackwell Server Edition для стандартных корпоративных серверов форм-фактора 2U. Системы на его базе смогут достигать до 45 раз более высокой производительности и в 18 раз лучшей энергоэффективности по сравнению с чисто процессорными решениями.
Тензорные ядра пятого поколения с поддержкой формата FP4 бустят инференс в 6 раз по сравнению с предыдущим поколением L40S.
Для рабочих станций анонсировали две компактные видеокарты: Nvidia RTX PRO 4000 SFF Edition и RTX PRO 2000 Blackwell.
Первая обеспечивает до 2.5 раз более высокую производительность в ИИ-задачах при том же энергопотреблении в 70 Вт, а вторая в 1.4 раза быстрее в CAD-приложениях.
Для Omniverse анонсировали новую библиотеку
NuRec
, которая реконструирует реальные окружения из данных сенсоров с помощью 3D Gaussian splatting. Приложения для симуляции Isaac Sim 5.0 и Isaac Lab 2.2 теперь доступны в виде опенсорс-проектов на GitHub.
В качестве примера показали кейс Amazon, где CAD-модели новых продуктов загружаются в Isaac Sim для генерации более 50 000 синтетических изображений. На этих данных обучаются ИИ-модели, которые затем управляют роботизированными манипуляторами для контроля качества продукции — и все это без каких-либо физических модификаций оборудования.
Для корпоративных задач линейку Nemotron расширили моделями Nemotron Nano 2 и Llama Nemotron Super 1.5. Они предназначены для выполнения сложных многоэтапных задач в кибербезопасности или клиентском сервисе.
Специально для "Физического ИИ" была разработана 7-миллиардная VLM Cosmos Reason. Ее задача - позволить роботам и агентам интерпретировать физический мир, используя априорные знания, понимание физики и "здравый смысл". Эту модель уже использует Uber для для анализа поведения автономных автомобилей.
Платформа дополнена интеграцией с VLM Cosmos Reason, новыми vision-моделями в TAO Toolkit и расширениями для Isaac Sim, позволяющие генерировать редкие сценарии обучения.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥6❤3