Google разработала масштабируемый процесс *active learning*, который позволяет в десятки тысяч раз сократить объём размеченных данных, необходимых для тонкой настройки больших языковых моделей на сложных задачах — например, при модерации рекламного контента.
1. Стартовая модель (LLM-0) получает промпт и автоматически размечает огромный массив данных.
2. Кластеризация выявляет примеры, где модель путается (наиболее спорные и ценные для обучения).
3. Отбор данных: из этих кластеров выбирают информативные и разнообразные примеры.
4. Экспертная разметка — только для выбранных примеров.
5. Итерации: дообучение модели → новый отбор спорных примеров → разметка → снова обучение.
- Сокращение с 100 000 размеченных примеров до менее 500 при сохранении или улучшении качества.
- Улучшение метрики *Cohen’s Kappa* на 55–65 %.
- В больших продакшн-моделях — до 3–4 порядков меньше данных при сопоставимом или лучшем качестве.
Это метрика, которая показывает, насколько два "судьи" (например, эксперт и модель) согласны между собой с поправкой на случайные совпадения.
- 0.0 — нет согласия (или хуже случайного)
- 0.41–0.60 — умеренное согласие
- 0.61–0.80 — значительное
- 0.81–1.00 — почти полное согласие
В задачах с дисбалансом классов Kappa даёт более честную оценку, чем обычная точность (accuracy).
Чем лучше предыдущих методов:
- Точечная разметка: размечаются только самые информативные примеры.
- Масштабируемость: метод применим к наборам данных с сотнями миллиардов примеров.
- Экономия ресурсов: меньше времени и затрат на разметку.
- Быстрая адаптация: подходит для доменов с быстро меняющимися правилами (реклама, модерация, безопасность).
При умном отборе данных LLM можно адаптировать в тысячи раз быстрее и дешевле, чем при традиционном обучении на больших размеченных наборах.
#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency
@ai_machinelearning_big_data
#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍106🔥23❤19⚡3🥰3
Unsloth конвертировали обе GPT-OSS (20B и 120B) и исправили ошибки, чтобы повысить качество инференса.
Минимальных требований для запуска моделей нет, запуститься можно даже если у вас всего 6 ГБ и только CPU, но инференс будет медленнее.
GPU не требуется , особенно для модели 20B, но его наличие значительно увеличивает скорость вывода (~80 токенов/с). С чем-то вроде H100 можно получить пропускную способность 140 токенов/с, и это значительно быстрее, чем у OpenAI в ChatGPT.
Модели можно запустить через llama.cpp, LM Studio или Open WebUI. Если модель 120B слишком медленная, попробуйте версию 20B - она очень быстрая и работает не хуже o3-mini.
Помимо моделей формата GGUF c полной точностью, Unsloth сделали версии с 4-bit и 16-bit точностью. 4-бинтый квант, кстати, можно файнтюнить на 24 ГБ VRAM.
@ai_machinelearning_big_data
#AI #ML #GPTOSS #GGUF #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍103❤42🔥17😁4❤🔥1
Media is too big
VIEW IN TELEGRAM
Microsoft открыла доступ к экспериментальному веб-инструменту Copilot 3D, который позволяет конвертировать статичные изображения в трехмерные модели. Сервис доступен бесплатно через портал Copilot Labs.
Инструмент поддерживает на входе PNG и JPG размером до 10 МБ. Созданные модели сохраняются на странице пользователя в течение 28 дней и могут быть скачаны в формате GLB. Copilot 3D является новой попыткой Microsoft популяризировать 3D-творчество после закрытия проектов Paint 3D и Remix3D.
copilot.microsoft.com
Команда, занимавшаяся разработкой суперкомпьютера Dojo расформирована, а ее руководитель Питер Бэннон покидает компанию.
Этот шаг завершает многолетнюю попытку Tesla создать кастомные чипы и процессоры "размером с кремниевую пластину" для обучения моделей автономного вождения и робототехники. Вместо этого компания перейдет на решения Nvidia и AMD, а производством чипов нового поколения займется Samsung.
Около 20 инженеров из команды Dojo уже основали собственный стартап DensityAI, а остальные сотрудники будут переведены на другие проекты внутри Tesla.
bloomberg.com
Apple подтвердила, что осенние обновления: iOS, iPadOS и macOS получат поддержку GPT-5. Она заменит текущую GPT-4o в тех случаях, когда собственным моделям Apple потребуется помощь в обработке сложных запросов. Это коснется ответов Siri, инструментов для письма и визуального поиска.
Использование GPT-5 останется опциональным: пользователи должны будут явно дать согласие на передачу запросов в ChatGPT. Apple продолжит скрывать IP-адреса и запрещать OpenAI хранить данные, однако оставит возможность привязать платную подписку OpenAI для доступа к дополнительным функциям.
Кроме того, обновления ОС принесут функцию Live Translation для перевода разговоров в реальном времени и расширят возможности сквозного поиска по контенту.
9to5mac.com
Техногигант приобрел WaveForms AI - молодой стартап, чье программное обеспечение способно идентифицировать и воспроизводить эмоциональные оттенки в человеческой речи. Команда WaveForms присоединится к подразделению Superintelligence Labs.
Стартап был основан в декабре 2024 года, но уже успел привлечь 40 миллионов долларов инвестиций при оценке в 160 миллионов. Компания работала над "Тестом Тьюринга для речи" и так называемым "эмоциональным AGI", чтобы сделать голоса, сгенерированные ИИ, неотличимыми от человеческих.
Для Цукерберга это уже вторая сделка в области ИИ-аудио за последние месяцы после июльского поглощения PlayAI. Финансовые условия покупки не разглашаются.
theinformation.com
Google приступил к тестированию редизайна сервиса Google Finance, в центре которого теперь находится ИИ. В ближайшие недели пользователи из США получат доступ к новой версии со встроенным чат-ботом. Он сможет отвечать на сложные вопросы о рынках, предоставляя обобщенные ответы со ссылками на внешние источники.
Помимо ИИ-помощника, обновление включает расширенные инструменты для построения графиков и добавляет рыночные данные в реальном времени для сырьевых товаров и криптовалют.
Появится и постоянно обновляемая новостная лента, которая позволит отслеживать важные заголовки, не покидая платформу. Во время тестового периода пользователи смогут переключаться между новым и классическим интерфейсами.
blog.google
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤48👍27🔥10🤨3🤔2🤓2
🖼️ GPT-Image-Edit-1.5M — крупнейший и полностью открытый датасет для редактирования изображений по тексту!
🚀 1.5 миллиона триплетов:
инструкция + оригинальное изображение + отредактированное по запросу
Как мы это сделали?
Мы переосмыслили и усилили три известных датасета (OmniEdit, HQ-Edit, UltraEdit) с помощью новой GPT-Image API.
📊 Результаты впечатляют:
Модель FluxKontext, дообученная на этом наборе, показывает:
▫️ 7.24 на GEdit-EN
▫️ 3.80 на ImgEdit-Full
▫️ 8.78 на Complex-Edit
— на уровне с топовыми проприетарными решениями!
🎯 Инструкции выполняются точно, а изображения выглядят реалистично.
Цель — сократить разрыв между open-source и закрытыми системами редактирования.
🔗 Подробнее:
🌐 Проект: https://ucsc-vlaa.github.io/GPT-Image-Edit/
💻 Код: https://github.com/wyhlovecpp/GPT-Image-Edit
📦 Датасет: https://huggingface.co/datasets/UCSC-VLAA/GPT-Image-Edit-1.5M
🤖 Модель: https://huggingface.co/UCSC-VLAA/gpt-image-edit-training
📄 Статья: https://arxiv.org/abs/2507.21033
@ai_machinelearning_big_data
#AI #ImageEditing #OpenSource #GPT4V #Multimodal
🚀 1.5 миллиона триплетов:
инструкция + оригинальное изображение + отредактированное по запросу
Как мы это сделали?
Мы переосмыслили и усилили три известных датасета (OmniEdit, HQ-Edit, UltraEdit) с помощью новой GPT-Image API.
📊 Результаты впечатляют:
Модель FluxKontext, дообученная на этом наборе, показывает:
▫️ 7.24 на GEdit-EN
▫️ 3.80 на ImgEdit-Full
▫️ 8.78 на Complex-Edit
— на уровне с топовыми проприетарными решениями!
🎯 Инструкции выполняются точно, а изображения выглядят реалистично.
Цель — сократить разрыв между open-source и закрытыми системами редактирования.
🔗 Подробнее:
🌐 Проект: https://ucsc-vlaa.github.io/GPT-Image-Edit/
💻 Код: https://github.com/wyhlovecpp/GPT-Image-Edit
📦 Датасет: https://huggingface.co/datasets/UCSC-VLAA/GPT-Image-Edit-1.5M
🤖 Модель: https://huggingface.co/UCSC-VLAA/gpt-image-edit-training
📄 Статья: https://arxiv.org/abs/2507.21033
@ai_machinelearning_big_data
#AI #ImageEditing #OpenSource #GPT4V #Multimodal
1❤95👍40🔥19👏2
Бесплатным пользователям доступно:
Бесплатный доступ, вероятно, является ответом на запуск ChatGPT5, хотя последний в настоящее время имеет более высокие лимиты для бесплатных пользователей.
@ai_machinelearning_big_data
#grok #ai #llm #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍129❤47🔥17🥱7😁6🤩2
Метод преодоления "барьера сортировки" для задач кратчайшего пути в ориентированных графах.
Группа исследователей из университетов Синьхуа, Стенфорда и Института Макса Планика представили детерминированный алгоритм для решения задачи SSSP в ориентированных графах с неотрицательными вещественными весами, который работает за время, пропорциональное числу ребер, умноженному на логарифмический множитель, который растет медленнее, чем обычный логарифм.
Проблема поиска кратчайшего пути от одной вершины до всех остальных (SSSP) — одна из фундаментальных в теории графов, и её история тянется с 50-х годов прошлого века. Классический алгоритм Дейкстры, в связке с продвинутыми структурами данных, решает эту задачу за время, которое примерно пропорционально сумме числа рёбер и произведения числа вершин на логарифм от их же числа.
Именно этот множитель - число вершин, умноженное на логарифм, долгое время считался теоретическим минимумом, так как в своей основе алгоритм Дейкстры побочно сортирует вершины по расстоянию от источника. Этот предел известен как «барьер сортировки» и казался непреодолимым.
Алгоритм Дейкстры на каждом шаге выбирает из "границы" - множества еще не обработанных вершин ту, что находится ближе всего к источнику. Это и создает узкое место, так как размер границы может достигать величины, сопоставимой с общим числом вершин в графе, и на каждом шаге требуется находить минимум.
Алгоритм Беллмана-Форда, в свою очередь, не требует сортировки, но его сложность пропорциональна числу ребер, умноженному на количество шагов, что слишком долго.
Вместо того чтобы поддерживать полную отсортированную границу, алгоритм фокусируется на ее сокращении. А если граница слишком велика, то запускается несколько шагов алгоритма Беллмана-Форда из ее вершин.
Это позволяет найти точное расстояние до некоторой части вершин, чьи кратчайшие пути коротки. Длинные же пути должны проходить через одну из "опорных" вершин, которых оказывается значительно меньше, чем вершин в исходной границе. Таким образом, сложная работа концентрируется только на этом небольшом наборе опорных точек.
Он рекурсивно разбивает задачу на несколько уровней. На каждом уровне применяется вышеописанная техника сокращения границы, что позволяет значительно уменьшить объем работы на каждую вершину, поскольку логарифмический множитель эффективно делится на другой, более медленно растущий логарифмический член.
В итоге, путем подбора внутренних параметров алгоритма, которые являются специфическими функциями от логарифма числа вершин, и достигается итоговая временная сложность, пропорциональная числу ребер, умноженному на этот новый, более медленно растущий логарифмический множитель.
— Быстрее решаются задачи в навигации, графах дорог, сетях и планировании.
— Доказано, что Дейкстра — не предел, и можно ещё ускорять поиск кратчайших путей.
@ai_machinelearning_big_data
#AI #ML #Sorting #Graphs #Algorithm
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥176👍80❤28🫡8👏2❤🔥1
Media is too big
VIEW IN TELEGRAM
Algonauts - соревнование по созданию моделей, наиболее точно предсказывающих активность человеческого мозга в ответ на мультимодальные стимулы (видео со звуком и текстом).
Победившая модель, TRIBE (Trimodal Brain Encoder) с 1 млрд. параметров, стала первой глубокой нейросетью, обученной предсказывать реакцию мозга сразу на несколько типов данных в разных кортикальных областях и у разных людей.
TRIBE объединяет предобученные представления из нескольких фундаментальных моделей: Llama 3.2 (текст), Wav2Vec2-BERT (аудио) и V-JEPA 2 (видео). Модель успешно предсказала сигналы фМРТ, полученные в ходе 80-часового эксперимента, где испытуемые смотрели фильмы.
Код, наборы данных и техотчет TRIBE опубликованы в открытом доступе.
Компания Марка Цукерберга в сети Х
ИИ-система от OpenAI, ориентированная на логические рассуждения, показала результат, соответствующий золотой медали на Международной олимпиаде по информатике (IOI) 2025 года. Она заняла 6 место в общем зачете среди 330 участников-людей и опередила все другие ИИ-системы.
Этот результат значительно выше по сравнению с прошлым годом, предыдущая версия не дотянула даже до бронзы. В OpenAI говорят, что модель достигла такого успеха без специальной донастройки на олимпиадных задачах.
Open AI в сети Х
Гендиректор GitHub Томас Домке объявил о своем уходе из компании. Он планирует основать собственный стартап, а до конца 2025 года будет заниматься передачей дел. Это решение завершает его почти четырехлетнее руководство, отмеченное внедрением искусственного интеллекта.
Преемника на пост CEO назначать не будут. Вместо этого Microsoft интегрирует GitHub в свое новое инженерное подразделение - CoreAI. Эта реорганизация лишает GitHub полуавтономного статуса внутри корпорации.
За время работы Домке аудитория GitHub выросла до 150 миллионов разработчиков, а число репозиториев превысило миллиард. Ключевым достижением стал запуск ИИ-ассистента Copilot, который привлек 20 миллионов пользователей и помог увеличить годовой доход платформы до 2 миллиардов долларов.
axios.com
Стартап анонсировал новую модель, которая генерирует HD-видео с точной синхронизацией губ под аудиодорожку всего за 6 секунд, независимо от длины клипа. По заявлению компании, система создает "гиперреалистичную мимику" и работает в 20 раз быстрее и в 20 раз дешевле, чем их модель предыдущего поколения.
Ранние тесты уже подтвердили способность модели работать в реальном времени со сложными аудиодорожками.
Pika Labs в сети X
Исследование Федерального резервного банка Нью-Йорка показало тревожную тенденцию: уровень безработицы среди американских выпускников IT-специальностей в возрасте от 22 до 27 лет вырос до 6.1%. Это вдвое выше, чем у выпускников-биологов или искусствоведов. Для программистов ситуация еще хуже — 7.5% безработных.
Причинами стали массовые увольнения в технологических гигантах, а также широкое распространение ИИ-ассистентов для кодинга, которые автоматизируют задачи, ранее выполнявшиеся новичками. По данным портала Indeed, количество вакансий для junior-разработчиков на 21% ниже, чем до пандемии Covid-19, в то время как спрос на старших специалистов растет.
Ситуацию усугубляет и перенасыщение рынка: в прошлом году в США было выпущено 170 тысяч IT-специалистов, что вдвое больше, чем в 2014 году. Некоторые выпускники сообщают, что отправляют сотни и даже тысячи резюме, не получая ответа.
nytimes.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤51👍27🔥10🤔4😨4🎉3
На конференции SIGGRAPH 2025 Nvidia представила свою центральную концепцию — "Физический ИИ".
Это конвергенция ИИ и компьютерной графики для создания систем, способных действовать в реальном мире, будь то роботы, автономные автомобили или умная инфраструктура.
Для дата-центров представили GPU Nvidia RTX PRO 6000 Blackwell Server Edition для стандартных корпоративных серверов форм-фактора 2U. Системы на его базе смогут достигать до 45 раз более высокой производительности и в 18 раз лучшей энергоэффективности по сравнению с чисто процессорными решениями.
Тензорные ядра пятого поколения с поддержкой формата FP4 бустят инференс в 6 раз по сравнению с предыдущим поколением L40S.
Для рабочих станций анонсировали две компактные видеокарты: Nvidia RTX PRO 4000 SFF Edition и RTX PRO 2000 Blackwell.
Первая обеспечивает до 2.5 раз более высокую производительность в ИИ-задачах при том же энергопотреблении в 70 Вт, а вторая в 1.4 раза быстрее в CAD-приложениях.
Для Omniverse анонсировали новую библиотеку
NuRec
, которая реконструирует реальные окружения из данных сенсоров с помощью 3D Gaussian splatting. Приложения для симуляции Isaac Sim 5.0 и Isaac Lab 2.2 теперь доступны в виде опенсорс-проектов на GitHub.
В качестве примера показали кейс Amazon, где CAD-модели новых продуктов загружаются в Isaac Sim для генерации более 50 000 синтетических изображений. На этих данных обучаются ИИ-модели, которые затем управляют роботизированными манипуляторами для контроля качества продукции — и все это без каких-либо физических модификаций оборудования.
Для корпоративных задач линейку Nemotron расширили моделями Nemotron Nano 2 и Llama Nemotron Super 1.5. Они предназначены для выполнения сложных многоэтапных задач в кибербезопасности или клиентском сервисе.
Специально для "Физического ИИ" была разработана 7-миллиардная VLM Cosmos Reason. Ее задача - позволить роботам и агентам интерпретировать физический мир, используя априорные знания, понимание физики и "здравый смысл". Эту модель уже использует Uber для для анализа поведения автономных автомобилей.
Платформа дополнена интеграцией с VLM Cosmos Reason, новыми vision-моделями в TAO Toolkit и расширениями для Isaac Sim, позволяющие генерировать редкие сценарии обучения.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥63👍28❤23
@ai_machinelearning_big_data
#AI #Multimodal #MachineLearning #MoE #VisionAI #Tencent #Hunyuan #LLM #ComputerVision #3DVision
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42❤15🔥13🥱1
This media is not supported in your browser
VIEW IN TELEGRAM
- SimpleQA: 91% точности, чуть выше Perplexity Pro — и всё это полностью локально.
- Сценарии: быстрый веб-поиск и глубокое исследование (Deep Research).
Из чего сделана
- Базируется на Qwen3-4B-Thinking (контекст до 256k), дообучена в Jan на рассуждение и работу с инструментами.
Где запускать
- Jan, llama.cpp или vLLM.
Как включить поиск в Jan
- Settings → Experimental Features → On
- Settings → MCP Servers → включите поисковый MCP (например, Serper)
Модели
- Jan-v1-4B: https://huggingface.co/janhq/Jan-v1-4B
- Jan-v1-4B-GGUF: https://huggingface.co/janhq/Jan-v1-4B-GGUF
@ai_machinelearning_big_data
#ai #ml #local #Qwen #Jan
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79❤23🔥19
🎮 Matrix-Game 2.0 — первая опенсорс модель, которая генерирует интерактивные 3D-миры из текста в реальном времени
Неделю назад DeepMind показала Genie 3, но код не был выложен в открытый доступ.
А сегодня Skywork выложили свой генератор
Matrix-Game 2.0 миров в опенсорс 🚀
Возможности:
🟢 25 кадров/с в реальном времени
🟢 Генерирует минуты непрерывного геймплея
🟢 Полная интерактивность: движение, повороты, исследование мира
Можно использовать несколько встроенных шаблонов: город, дикая природа, TempleRun, GTA и др.
Зачем это нужно:
🟠 Создание игровых движков
🟠 Тренировка AI-агентов
🟠 Создание виртуальных персонажей
Заявленые требования: GPU с памятью не менее 24 ГБ (A100 и H100 протестированы).
Как работает:
• Обучена на 1350 часах видео геймлея
• Управление: движок реагирует на нажатия клавиш и движение мыши на каждом кадре
• Модель: 1,3 млрд параметров
• KV-Cache хранит контекст, чтобы окружение генерировалось без ограничений по времени
🟡 Huggingface Model: https://huggingface.co/Skywork/Matrix-Game-2.0
🟡 Repo: https://matrix-game-v2.github.io
@ai_machinelearning_big_data
#AI #MatrixGame #OpenSource #DeepLearning #GameDev #InteractiveAI #WorldModel #GenerativeAI #RealtimeAI #MachineLearning
Неделю назад DeepMind показала Genie 3, но код не был выложен в открытый доступ.
А сегодня Skywork выложили свой генератор
Matrix-Game 2.0 миров в опенсорс 🚀
Возможности:
Можно использовать несколько встроенных шаблонов: город, дикая природа, TempleRun, GTA и др.
Зачем это нужно:
Заявленые требования: GPU с памятью не менее 24 ГБ (A100 и H100 протестированы).
Как работает:
• Обучена на 1350 часах видео геймлея
• Управление: движок реагирует на нажатия клавиш и движение мыши на каждом кадре
• Модель: 1,3 млрд параметров
• KV-Cache хранит контекст, чтобы окружение генерировалось без ограничений по времени
@ai_machinelearning_big_data
#AI #MatrixGame #OpenSource #DeepLearning #GameDev #InteractiveAI #WorldModel #GenerativeAI #RealtimeAI #MachineLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥87👍30❤24🥱5😐4
Media is too big
VIEW IN TELEGRAM
OpenAI ведет переговоры об инвестициях в Merge Labs, стартап в области нейрокомпьютерных интерфейсов, который планирует создание высокоскоростных BCI-систем.
Merge Labs планирует привлечь 250 миллионов долларов при оценке в 850 миллионов. Сэм Альтман будет числиться сооснователем вместе с бывшим топ-менеджером Neuralink Алексом Бланиа, однако не будет заниматься операционной деятельностью. Ожидается, что основное финансирование поступит от венчурного подразделения OpenAI.
Этот шаг еще больше обостряет давнее соперничество между Альтманом и Маском, которые в 2015 году вместе основали OpenAI, но позже разошлись во взглядах.
ft.com
Anthropic объявила о значительном увеличении контекстного окна для Claude Sonnet 4 до одного миллиона токенов. Это в 5 раз больше предыдущего лимита и позволит обрабатывать за один проход целые кодовые базы или большие массивы документов. Новая возможность уже доступна в публичной бете через API Anthropic, Amazon Bedrock, а в скором времени появится и в Google Cloud Vertex AI.
За расширение придется платить больше. Для запросов свыше 200 тыс. входных токенов цена удваивается и составит 6 долларов за миллион токенов. Стоимость выходных токенов также вырастет с 15 до 22.50 долларов за миллион.
anthropic.com
Согласно внутренним документам, Microsoft составила список конкретных сотрудников с указанием их имен, ролей и принадлежности к командам: Reality Labs, GenAI Infrastructure и AI Research. Корпорация готова предложить им многомиллионные компенсационные пакеты - крупные бонусы при найме, конкурентные зарплаты, значительные пакеты акций и высокие годовые премии.
Для ускорения процесса в Microsoft внедрили специальную процедуру. Рекрутеры могут помечать кандидатов как "критически важные ИИ-таланты" и тогда процесс рассмотрения и утверждения на уровне руководства возможен в течение 24 часов.
businessinsider.com
Институт искусственного интеллекта Аллена представил MolmoAct 7B — опенсорсную модель для планирования движений роботов в трехмерном пространстве. Система интерпретирует команды на естественном языке, создает 3D-реконструкцию сцены и прокладывает траекторию движения, которую разработчик может просмотреть и скорректировать до того, как робот начнет действовать.
Модель на 7 млрд. параметров была обучена на 18 млн. примеров, в которых были включены 12 тыс. эпизодов из реального мира. В бенчмарке SimPLER система показала успешность выполнения задач в 72.1%, обойдя решения от Nvidia, Google и Microsoft.
AI2 опубликовал техотчет, веса и датасеты, позиционируя MolmoAct как свободно доступную альтернативу проприетарным решениям.
allenai.org
Платформа создает полноценные, играбельные проекты на основе текстового описания на естественном языке, не требуя навыков программирования. Система использует большие модели для автоматической генерации всех ключевых элементов: 3D-сцен, персонажей и игровой логики, интегрируя текст, 3D-моделирование и физические движки.
Помимо основной генерации, инструмент поддерживает персонализацию созданных игр, предварительный просмотр в реальном времени и возможность оптимизации. SEELE AI позиционирует свой сервис не только как игровой инструмент, но и как платформу для создания контента в сфере образования, маркетинга и социальных сетей.
Попробовать инструмент можно на официальном сайте.
Seele AI в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64❤22🔥13
Embedding Atlas — опенсорсный инструмент от Apple для интерактивной визуализации больших наборов векторных представлений, который позволяет не просто смотреть на облако точек, а полноценно с ним работать. И что самое приятное, он способен отрисовывать до нескольких миллионов точек благодаря реализации на WebGPU.
Embedding Atlas сам находит скопления в данных и подписывает их, позволяя мгновенно сориентироваться в общей структуре датасета. Чтобы отделить реальные кластеры от случайных выбросов, используется оценка плотности ядра с отрисовкой контуров плотности.
Решена и вечная проблема визуализаций - "каша" из перекрывающихся точек. Embedding Atlas использует технологию order-independent transparency, так что даже при большом наложении точек картинка остаётся четкой и информативной.
В инструменте есть поиск в реальном времени и нахождение ближайших соседей. Можно ввести текстовый запрос или просто кликнуть на любую точку в облаке, и Embedding Atlas мгновенно подсветит наиболее похожие на нее данные.
Еще есть интерактивный фильтр по метаданным. Например, можно выбрать на гистограмме определенный класс объектов, и визуализация тут же отфильтрует эмбединги, оставив только соответствующие ему точки.
Дает три варианта интеграции: утилиту командной строки для быстрой визуализации датафреймов, виджет для Jupyter, позволяющий встраивать атлас прямо в ноутбуки, и компонент для Streamlit, если вы создаете полноценные веб-приложения.
Этот пакет для тех, кто хочет встроить визуализацию в собственные веб-приложения. Он предоставляет готовые UI-компоненты в виде API:
Table
, EmbeddingView
, EmbeddingViewMosaic
и EmbeddingAtlas
.@ai_machinelearning_big_data
#AI #ML #Embedding #Visualisation #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍77❤37🔥24
Media is too big
VIEW IN TELEGRAM
OpenAI отреагировала на критику пользователей и предоставила больше контроля над выбором моделей. Теперь вместо автоматической маршрутизации запросов можно вручную переключаться между тремя режимами GPT-5: Auto, Fast и Thinking. Также в интерфейс вернули возможность прямого выбора GPT-4o.
Ранее пользователи жаловались на непредсказуемость ChatGPT, подозревая, что система направляет сложные запросы на более дешевые модели. В ответ OpenAI не только вернула ручное управление, но и временно увеличила лимит на использование самого мощного режима "GPT-5 Thinking" до 3000 сообщений в неделю.
Кроме того, в настройках появилась опция, позволяющая выбирать и более старые модели o3 и 4.1.
Sam Altman в сети X
Apple активно разрабатывает новую линейку аппаратных и программных ИИ-продуктов. В нее войдут домашние роботы, кардинально переработанная Siri с разговорными навыками и расширенная линейка устройств для домашней безопасности.
Среди прототипов - настольный робот, дисплей которого имитирует движения головы во время видеозвонков и мобильный робот, способный следовать за пользователем по дому. Компания также тестирует умные колонки с экранами и работает над операционной системой "HomeOS", которая объединит все устройства в единую экосистему.
bloomberg.com
Google начала развертывание обновления Gemini, направленного на повышение персонализации и конфиденциальности. Ключевой стала функция Personal Context. С ней Gemini будет запоминать важные детали из прошлых разговоров пользователя и использовать их для адаптации будущих ответов. Опция включена по умолчанию, но ее можно отключить в настройках.
Также появятся "Временные чаты". Переписки в этом режиме не сохраняются в истории, не используются для обучения моделей и исчезают из интерфейса через 72 часа.
Пока функции доступны для модели Gemini 2.5 Pro в некоторых странах. В ближайшие недели Google обещает расширить их доступность на страны ЕС, Великобританию и Швейцарию и более легкую модель 2.5 Flash.
blog.google
DeepSeek готовится к релизу обновленной языковой модели DeepSeek R2. По данным отраслевых изданий, запуск ожидается в период с 15 по 30 августа. Официального анонса пока не было.
По предварительной информации, R2 будет использовать архитектуру "смеси экспертов" и распространяться под открытой лицензией. Также источники отмечают, что что модель обучалась на кластере Huawei Ascend 910B, где компания добилась улучшения эффективности использования аппаратного обеспечения, задействовав около 82% доступных мощностей ИИ-процессоров.
huaweicentral.com
Стартап Liquid AI представил новое поколение моделей LFM2-VL. Они спроектированы для работы на устройствах - от смартфонов и ноутбуков до носимой электроники. В основе - модульная архитектура с легковесным проектором, который сжимает токены изображений для ускорения обработки.
По заявлению разработчиков, они вдвое быстрее по инференсу на GPU по сравнению с аналогами, при сохранении конкурентоспособности на стандартных бенчмарках.
Выпущено 2 версии: LFM2-VL-450M для устройств с ограниченными ресурсами и LFM2-VL-1.6B для более сложных задач, которая подходит для работы на одном GPU.
Модели доступны на Hugging Face под лицензией Apache 2.0.
liquid.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58❤29🔥12👌4
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Команда Yan из Tencent анонсировала одноименный фреймворк для интерактивной генерации видео, который, по сути, является фундаментом для создания целых виртуальных миров в реальном времени. Yan объединяет 3 модуля: симуляцию уровня AAA-игр, мультимодальную генерацию контента и его редактирование на лету.
Он отвечает за симуляцию с реалистичной физикой и рендерингом в разрешении 1080p при 60 кадрах в секунду. В основе лежит Stable Diffusion, но с рядом модификаций.
Во-первых, был разработан VAE с высокой степенью сжатия и низкой задержкой. Он увеличивает пространственное сжатие с 8 до 32 раз и добавляет временное сжатие в 2 раза, обрабатывая кадры парами.
Во-вторых, для самого процесса диффузии используется каузальное временное внимание, что позволяет генерировать видео кадр за кадром.
Наконец, для ускорения инференса применяется целый набор техник: сокращение шагов шумоподавления до 4 с помощью DDIM-сэмплера, конвейер шумоподавления со скользящим окном, KV-кэширование, структурный прунинг UNet и квантование весов до FP8.
В итоге Yan-Sim выполняет генерацию бесконечного интерактивного видео с низкой задержкой (0.07с), что сопоставимо с реальным геймплеем.
В нем происходит мультимодальная генерация миров по текстовым и визуальным промптам с помощью двухуровневой системы иерархических описаний.
Глобальное описание определяет статичный мир: топологию, визуальный стиль и освещение, выполняя роль "якоря" для всей генерации.
Локальные описания, генерируемые для коротких видеоклипов, отвечают за динамические события и взаимодействия.
Этот подход позволяет модели смешивать стили и механики из разных доменов. Например, можно задать стиль одной игры, а механику - от другой.
Чтобы добиться интерактивности в реальном времени, готовая модель проходит через дистилляцию, в результате чего получается эффективный генератор, работающий в несколько шагов и выдающий 12-17 FPS на одной NVIDIA H20 или до 30 FPS на четырех.
Это редактор сгенерированного мира прямо во время взаимодействия с помощью текстовых команд. Ключевая идея здесь - разделение симуляции механики и визуального рендеринга.
Симулятор интерактивной механики, построенный на базе Yan-Sim, работает с картами глубины, сохраняя 3D-структуру объектов, но отбрасывая их визуальное оформление. Это позволяет ему изучать общие законы взаимодействия, зависящие от формы, а не от цвета или текстуры.
Визуальный рендерер, основанный на Yan-Gen и ControlNet, отвечает за раскрашивание этих карт глубины в соответствии со стилевыми промптами. Пользователь может в любой момент ввести два типа команд: структурные (например, "добавить интерактивный объект") и стилевые (например, "изменить цвет объекта").
Пока проект в самом начале своего пути - опубликованы только демо-видео и технический отчет, описывающий создание Yan. Модули системы, в виде отдельных моделей обещают опубликовать в ближайшее время.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍55🔥30❤19😁1🥱1
Вчера вышла любопытная статья на The Register раскрывает ключевую стратегию, лежащую в создании GPT-5: это не столько развитие новых возможностей, сколько способ экономии ресурсов.
Что нового?
ChatGPT — это 700 млн активных пользователей в неделю, но платных всего ~3%.
Масштаб колоссальный, но вместе с ним — и проблема: огромные расходы на вычисления.
@ai_machinelearning_big_data
#news #ai #ml #opanai #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍95❤38🔥14😁8🙉2👏1💯1
Модель 270 млн параметров (170M для эмбеддингов и 100M для трансформер-блоков), но с отличной способностью следовать промтпам прямо «из коробки».
🔹 Особенности
- 256k токенов
- Энергоэффективность: INT4-версия на Pixel 9 Pro расходует всего 0.75% батареи за 25 диалогов.
- Доступны предобученные и instruction-tuned чекпойнты.
- Поддержка Quantization-Aware Training (QAT) для запуска в INT4 без заметной потери качества.
- Массовые, чётко определённые задачи: анализ тональности, извлечение сущностей, обработка текста, комплаенс-проверки.
- Минимальные задержки и низкая стоимость инференса — можно запускать прямо на устройстве.
- Быстрые эксперименты с fine-tuning.
- Полная приватность данных благодаря on-device работе.
- Создание «флота» узкоспециализированных моделей.
В анонсе приводится пример, как Adaptive ML и SK Telecom дообучили Gemma 3 4B для мультиязычной модерации контента, превзойдя более крупные проприетарные модели.
Gemma 3 270M — отличная небольшая модель, быстрая и дешёвая в работе.
@ai_machinelearning_big_data
#news #ai #ml #Gemma #google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍90❤31🔥19🤔2
Media is too big
VIEW IN TELEGRAM
DINOv3 - новое семейство фундаментальных моделей для компьютерного зрения, обученных методом SSL. Ключевой особенностью стал прорыв в обучении без размеченных вручную данных: система, натренированная на 1.7 миллиардах изображений, достигает SOTA-производительности.
Backbone DINOv3 превосходит специализированные модели в широком спектре задач, от классификации до сегментации, без необходимости дополнительного дообучения. Модели разных размеров, включая флагманскую версию на 7 миллиардов параметров, уже доступны на Hugging Face под коммерческой лицензией.
github.com
Cursor анонсировала 2 ключевых изменения в тарифной политике, которые вступят в силу для пользователей после 15 сентября при следующем продлении подписки.
Во-первых, для Teams вводится переменная стоимость за использование ИИ-агента. Вместо фиксированной платы за каждый запрос, цена будет зависеть от сложности задачи. Простой вопрос о синтаксисе обойдется дешевле, чем задача на полноценный pull-request. Такая модель уже используется в индивидуальных планах.
Во-вторых, обновляются лимиты на использование режима "Auto" для индивидуальных пользователей. Ранее он был безлимитным, но теперь его использование будет учитываться в рамках ежемесячного пакета токенов по конкурентным тарифам.
cursor.com
Игорь Бабушкин, один из сооснователей xAI, объявил о своем уходе. Он запускает собственный венчурный фонд Babuschkin Ventures, который будет поддерживать стартапы, работающие над безопасностью и этическими проблемами ИИ.
В xAI Бабушкин отвечал за инженерную часть, инфраструктуру и прикладные ИИ-проекты. Он участвовал в создании суперкомпьютера "Memphis Supercluster" для обучения моделей. До xAI Игорь работал в OpenAI и был одним из ведущих разработчиков проекта AlphaStar в DeepMind.
Свое решение он объяснил желанием сосредоточиться на создании более безопасного и человеко-ориентированного ИИ, ссылаясь на влияние бесед с Максом Тегмарком, известным сторонником осторожного подхода к развитию технологии.
Igor Babushkin в сети X
Ученые из Стэнфордского университета создали первый нейрокомпьютерный интерфейс, способный расшифровывать слова, которые человек просто представляет в уме, не пытаясь произнести их вслух. Это открывает новые возможности для пациентов, утративших способность говорить. Исследование опубликовано в журнале Cell.
С помощью ИИ-моделей, обученных распознавать фонемы, система преобразовывет нейронные сигналы в предложения из словаря в 125 000 слов, достигая точности до 74% в реальном времени.
ft.com
Илон Маск объявил в своей соцсети X, что сервис для генерации изображений и видео Grok Imagine становится бесплатным для всех пользователей по всему миру. Акция распространяется на приложения для iOS и Android и снимает требование платной подписки, которое действовало с момента запуска инструмента в апреле.
Этот шаг последовал за недавним решением xAI открыть доступ к своей языковой модели Grok 4. Маск не уточнил, как долго продлится бесплатный период, но отметил, что количество ежедневных запросов для бесплатных пользователей будет ограничено.
Elon Musk в сети X
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤47👍28🔥12🤔1
Google представила g-AMIE (guardrailed-AMIE) — расширенную версию своей исследовательской системы AMIE, которая работает в паре с врачом по принципу асинхронного надзора.
Идея проста: ИИ собирает анамнез, а врач принимает решения. Для этого была разработана многоагентная система на базе Gemini 2.0 Flash и специальный веб-интерфейс "кабинет врача"
Агент-диалог
ведёт беседу с пациентом, собирая информацию. Его работа делится на 3 фазы: общий сбор анамнеза, целенаправленная проверка первоначального дифференциального диагноза и заключительная фаза с ответами на вопросы пациента.Агент-ограничитель
следит за тем, чтобы агент-диалог
не давал никаких индивидуальных медицинских советов, диагнозов или планов лечения, при необходимости перефразируя его ответы.Агент SOAP-записи
генерирует подробную медицинскую карту в популярном формате SOAP, разделяя задачи предварительных итогов (жалобы пациента, объективные данные) и вывода (оценка и план лечения).После сбора анамнеза сгенерированная SOAP-запись и черновик заключения отправляются на проверку врачу через «кабинет врача». Врач может редактировать документы и либо одобрить отправку сообщения, либо принять решение о необходимости очной консультации.
Чтобы оценить эффективность такого подхода, было проведено рандомизированное слепое исследование в формате виртуального объективного структурированного клинического экзамена (ОСКЭ) на 60 клинических сценариях.
В исследовании участвовали пациенты, g-AMIE и 2 контрольные группы: врачи общей практики и медсестры-практики/ассистенты врачей. Обеим человеческим группам было предписано работать в тех же ограничениях, что и g-AMIE, то есть только собирать анамнез без предоставления советов. Затем их SOAP-записи и проекты сообщений оценивались группой опытных врачей-наблюдателей.
Во-первых, g-AMIE успешно справился с задачей и ни разу не был уличён в предоставлении индивидуальных медицинских советов.
Во-вторых, его способность извлекать ключевую информацию из беседы с пациентом была оценена выше, чем у обеих контрольных групп. SOAP-записи, сгенерированные g-AMIE, были признаны более полными, точными и читаемыми.
Врачи-наблюдатели чаще предпочитали работать с записями от ИИ и с большей вероятностью одобряли составленные им сообщения для пациентов.
Более того, дифференциальные диагнозы и планы лечения, основанные на данных от g-AMIE, были оценены как более адекватные.
g-AMIE оказался более "многословным", что, с одной стороны, способствовало лучшему установлению контакта с пациентом (тестовые пациенты отметили его эмпатию), но с другой — приводило к более длительному времени проверки записей врачами.
Во-вторых, хотя в записях g-AMIE и встречались галлюцинации, их частота была сопоставима с ошибками памяти у людей.
Интересно, что медсестры и ассистенты врачей показали себя лучше, чем врачи общей практики, как в сборе анамнеза, так и в соблюдении ограничений.
Авторы объясняют это тем, что врачи не привыкли воздерживаться от советов во время консультации и их стандартный рабочий процесс был нарушен. Поэтому результаты не следует интерпретировать как прямое превосходство ИИ над клиницистами в реальном мире, так как люди не были обучены работать в этой новой парадигме.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62❤14🔥11🥰2
Media is too big
VIEW IN TELEGRAM
Anthropic добавила в Claude Opus 4 и 4.1 возможность принудительно завершать беседу. Эта функция предназначена для редких, крайних случаев постоянно враждебного или оскорбительного поведения со стороны пользователя.
Это крайняя мера, к которой чат-бот прибегнет только после многократных безуспешных попыток перенаправить разговор в продуктивное русло или по прямой просьбе пользователя. При этом система не будет использовать эту возможность, если есть риск, что пользователь может причинить вред себе или окружающим.
Когда Claude завершает диалог, пользователь не сможет отправлять новые сообщения в этой ветке, но сможет начать новый чат или отредактировать старые сообщения для создания новых ветвей.
anthropic.com
Согласно данным компании Appfigures, мобильное приложение ChatGPT сгенерировало 2 млрд. долларов потребительских расходов с момента запуска в мае 2023 года. В среднем каждый из 690 млн. пользователей потратил в приложении 2.91 доллара. Это говорит о готовности аудитории платить за ИИ-сервисы на мобильных устройствах.
Темпы роста выручки резко ускорились в этом году. С января по июль 2025 года пользователи потратили в приложении 1.35 млрд. долларов, на 673% больше, чем за аналогичный период прошлого года. Это эквивалентно примерно 193 млн. долларов в месяц. США лидируют по доходам (38%), а Индия — по количеству установок (14%).
Эти метрики показывают отрыв ChatGPT от конкурентов. Для сравнения, Grok заработал в этом году 25.6 млн., а доходы Claude и Copilot вместе взятых составляют лишь одну тридцатую от мобильной выручки OpenAI.
techcrunch.com
Tencent представила Hunyuan World Model 1.0-Lite оптимизированную версию своей модели для генерации трехмерных сцен, которая может работать на потребительских GPU. Разработчики снизили требования к видеопамяти на 35% (с 26 до 17 ГБ) благодаря динамическому FP8-квантованию.
За счет использования SageAttention и оптимизации кэширования удалось ускорить инференс более чем в 3 раза с потерей точности менее 1%.
Как и оригинальная версия, 1.0-Lite имеет открытый исходный код и уже доступна на GitHub, Hugging Face, а также в виде демо SceneTo3D.
Tencent Hunyuan в сети X
В подкасте на Youtube OpenAI рассказали о разработке нового класса моделей, ориентированных на долгосрочное мышление. Системы на их основе смогут планировать, рассуждать и экспериментировать над одной проблемой на протяжении длительного времени, от нескольких часов до нескольких дней.
По словам OpenAI , первые проблески этого подхода уже видны в моделях, которые недавно завоевали золото на международных олимпиадах по математике и информатике. Конечная цель - автоматизировать исследования, например, для поиска новых идей в медицине или в области безопасности самого ИИ.
В OpenAI признают, что реализация этой концепции потребует значительно больших вычислительных мощностей, чем доступны сегодня. Это объясняет готовность Сэма Альтмана инвестировать в строительство дата-центров в ближайшие годы.
OpenAI на платформе Youtube
Google запустил новый инструмент Flight Deals. Он использует ИИ для поиска выгодных перелетов по запросам на естественном языке, а не через стандартные фильтры. Пользователи могут описать свои пожелания в свободной форме, например, «недельная поездка этой зимой в город с хорошей едой, только прямые рейсы». Инструмент ориентирован на путешественников с гибкими планами, для которых приоритетом является цена.
По заявлению Google, система использует продвинутый ИИ для понимания нюансов запроса, а затем анализирует данные Google Flights в реальном времени, чтобы показать актуальные варианты. Сервис запускается в бета-режиме и в течение недели станет доступен пользователям в США, Канаде и Индии.
blog.google
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤29👍14🔥6😁4