304K subscribers
4K photos
705 videos
17 files
4.58K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
🌟 NVIDIA Jet-Nemotron: гибридная архитектура, которая быстрее SOTA-моделей в 53 раза.

Jet-Nemotron - новая архитектура языковых моделей, которая, по заявлениям NVIDIA, превосходит по эффективности топовые опенсорс-модели.

На H100 обещают ускорение пропускной способности при генерации до 53.6 раз, если работать с контекстом в 256 тыс. токенов и максимальным размером батча. Такой скачок производительности стал возможен благодаря двум ключевым инновациям: пайплайну PostNAS и новому блоку линейного внимания JetBlock.

🟡PostNAS (Post Neural Architecture Search).

Суть PostNAS состоит в отказе от дорогостоящего обучения новых архитектур с нуля. Вместо этого берут уже предварительно обученную модель и запускают процесс постобработки. Пайплайн сначала анализирует модель и определяет, какие слои внимания вносят наибольший вклад в её работу, а какие - не так уж и важны. Дальше он ищет оптимальное расположение для слоёв полного внимания и подбирает улучшенный дизайн для остальных блоков.

🟡JetBlock - модуль линейного внимания.

Его фишка - динамические сверточные ядра, генерируемые на лету в зависимости от входных данных и применяемые к value-токенам.

Прямое сравнение с Mamba2 Block, проведенное на идентичных данных и с одинаковыми параметрами обучения, показало существенный прирост в точности при сохранении той же пропускной способности во время обучения и инференса.

🟡Третий элемент успеха - аппаратно-ориентированный поиск архитектуры.

Вместо того чтобы использовать количество параметров в качестве прокси-метрики для эффективности, авторы напрямую оптимизируют архитектуру под целевое железо (H100), используя в качестве цели именно пропускную способность генерации.

Ключевое открытие тут в том, что размер KV-кэша, а не количество параметров, является критическим фактором, ограничивающим скорость генерации на длинных контекстах, поскольку декодирование упирается в пропускную способность памяти.

Фиксируя размер кэша, они провели поиск по размерности ключей/значений и числу голов внимания, обнаружив конфигурации, которые при том же объеме кэша и схожей пропускной способности используют больше параметров для достижения более высокой точности.

Итоговый дизайн Jet-Nemotron, построенный на базе Qwen 2.5, включает всего 2 full-attention слоя (для retrieval) и 2 слоя со скользящим вниманием (SWA, для MMLU), остальные — JetBlock.

Что касается конкретных моделей, то уже есть Jet-Nemotron-2B и Jet-Nemotron-4B. По результатам тестов, они как минимум не уступают по точности ведущим эффективным моделям, например, Qwen3, на целом ряде бенчмарков. При этом младшая модель Jet-Nemotron-2B работает в 21 раз быстрее, чем Qwen3-1.7B-Base, а старшая, Jet-Nemotron-4B, обгоняет её уже в 47 раз.

▶️ Код и веса моделей обещают опубликовать сразу после завершения юридической проверки.


🟡Страница проекта
🟡Arxiv
🖥GitHub (Coming Soon)


@ai_machinelearning_big_data

#AI #ML #LLM #NVIDIA #JetNemotron
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5929🔥20💘2❤‍🔥1👏1
Media is too big
VIEW IN TELEGRAM
✔️ Grok Code Fast 1: быстрая модель кодинга для разработчиков.

xAI выпустила модель Grok Code Fast 1, ориентированную на разработчиков и быстрое написание кода. Модель предлагает контекстное окно в 256 000 токенов при стоимости использования $0.20 за миллион входных токенов и $1.50 за миллион выходных.

Grok Code Fast 1 до 2 сентября доступна бесплатно в GitHub Copilot. Первые пользователи отмечают, что модель работает в несколько раз быстрее Claude Code и эффективно справляется с поиском и исправлением ошибок, хотя для лучших результатов требует детальных запросов.
github.blog

✔️ Китай обнародовал стратегию тотального внедрения ИИ в экономику.

Правительство Китая опубликовало план "AI Plus", который ставит целью глубокую интеграцию ИИ практически во все сферы экономики. Документ призывает к усилению финансовой поддержки, строительству сверхбольших вычислительных кластеров и развитию отечественной экосистемы ИИ-чипов и ПО.

К 2027 году Пекин планирует внедрить ИИ более чем в 70% ключевых отраслей - от производства и здравоохранения до госуправления и потребительской электроники, а к 2030 году этот показатель должен превысить 90%. Дорожная карта предусматривает массовое распространение беспилотных автомобилей, роботов, ПК, смартфонов и носимых устройств до 2035 года.

На фоне этого, китайские производители чипов намерены в следующем году утроить национальное производство ИИ-ускорителей, чему будет способствовать запуск новых фабрик.
ft.com

✔️ ByteDance представила универсальную модель генерации видео.

ByteDance анонсировала Waver 1.0, модель для генерации из текста в видео, изображения в видео и текста в изображение. Система поддерживает разрешение до 1080p и длину роликов от 2 до 10 секунд. По заявлениям разработчиков, Waver отлично справляется со сложным движением и превосходит аналоги на бенчмарках Waver-Bench 1.0 и Hermes.

В основе Waver 1.0 - гибридная архитектура DiT и двух текстовых энкодеров: flan-t5-xxl и Qwen2.5-32B. Для генерации в 1080p используется отдельный компонент Waver-Refiner, который повышает разрешение с помощью диффузионного процесса. Для улучшения реализма на этапе инференса применяется технология APG, подавляющая артефакты.

Планы по публикации весов модели не заявлены, но попробовать Waver можно в Discord-сообществе.
waver.video

✔️ OpenAI и Anthropic провели перекрестное исследование безопасности своих моделей.

В рамках беспрецедентного сотрудничества OpenAI и Anthropic протестировали друг у друга модели, чтобы создать эталон для независимой оценки ИИ. Исследователи получили временный взаимный доступ к API-интерфейсам конкурирующих систем.

Результаты выявили взаимные профили рисков. Модели Claude Opus 4 и Sonnet 4 отказывались отвечать на вопросы, в которых были не уверены в 70% случаев. В то же время, модели OpenAI, o3 и o4-mini, пытались дать ответ гораздо чаще, но при этом генерировали больше галлюцинаций. Руководители обеих компаний согласились, что оптимальным был бы подход, сочетающий более частые отказы при неопределенности с меньшим количеством ложной информации.

Компании надеются повторить подобное перекрестное тестирование в будущем и призывают другие лаборатории присоединиться.
bloomberg.com

✔️ PromptLock: вирус-шифровальщик, использующий локальную модель.

Исследователи из ESET выявили новый тип программы-вымогателя под названием PromptLock, который использует локально развернутую модель gpt-oss-20b от OpenAI для генерации уникальных вредоносных скриптов при каждом запуске.

Поскольку модель работает на зараженной машине через Ollama API, вирус не делает сетевых запросов для получения инструкций, что позволяет ему обходить традиционные системы обнаружения вторжений.

Анализ показал, что PromptLock способен похищать данные и шифровать файлы, а в будущих версиях, вероятно, сможет и полностью уничтожать информацию. Уже замечены версии для Windows и Linux, и, по мнению экспертов, адаптация под macOS не составит труда.
thehackernews.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
38👍26🔥7🤬3👾1
📌 Andreessen Horowitz выпустили пятый рейтинг TOP 100 ИИ-приложений.

Главный вывод из пятого ежегодного списка Top 100 AI Apps — экосистема ИИ начинает приходить в равновесие.

В веб-рейтинге появилось всего 11 новых имен, что заметно меньше, чем было мартовском отчете. В мобильном сегменте, напротив, новичков больше — целых 14, но это связано с тем, что App Store активно вычищают "клонов ChatGPT", освобождая место для оригинальных приложений.

🟡Главным событием стало укрепление позиций Google.

Их флагманский ассистент Gemini занял 2 место после ChatGPT и в вебе, и на мобильных устройствах. Правда, разрыв пока существенный: в вебе Gemini набирает примерно 12% от трафика ChatGPT. А вот на мобильных платформах ситуация иная - у Gemini уже почти половина ежемесячно активных пользователей ChatGPT.

Интересная деталь: почти 90% мобильной аудитории Gemini сидит на Android, тогда как у ChatGPT доля Android-пользователей составляет 60%.


Помимо Gemini, в топ-10 ворвался Google AI Studio. Следом идeт NotebookLM на 13-м месте, а экспериментальная площадка Google Labs заняла 39-ю строчку, получив в мае 2025 года прирост трафика более чем на 13% после запуска видеомодели Veo 3.

🟡В общей битве ChatGPT все еще лидирует.

Grok занял четвeртое место в вебе и 23-е на мобильных. Его мобильный рост особенно впечатляет: с нуля в конце 2024 года до более чем 20 миллионов MAU сейчас. В июле 2025 года, после релиза модели Grok 4, использование приложения подскочило почти на 40%.

У Марка Цукербкрга успехи скромнее: 46-е место в вебе и полное отсутствие в мобильном топе.

Perplexity продолжает уверенно расти, а вот Claude и DeepSeek показывают смешанные результаты. DeepSeek особенно сильно просел в вебе, потеряв более 40% трафика со своего пика в феврале 2025 года.

🟡Отдельного внимания заслуживает Китай.

Сразу 3 компании, ориентированные на внутренний рынок, вошли в топ-20 веб-рейтинга: Quark от Alibaba (№9), Doubao от Bytedance (№12) и Kimi от Moonshot AI (№17). Более 75% их трафика приходится на Китай, где доступ к ChatGPT или Claude ограничен.

Ещё более поразительна картина на мобильных устройствах. По оценкам, 22 из 50 приложений в топе были разработаны в Китае, но используются преимущественно за его пределами. Особенно сильна их концентрация в категории "фото и видео": одна только компания Meitu представлена 5-ю продуктами, включая BeautyPlus и Wink. Bytedance также не отстаёт с ассистентами Doubao и Cici.

🟡Ветераны рейтинга — 14 компаний, которые попадали в каждый из 5 списков Top 100 AI Apps.

Это ChatGPT, Civitai, Poe, Perplexity, LeonardoAI, VEED, Gamma, QuiliBot, CutOut, Character AI, Midjourney, Photoroom, Eleven Labs и HuggingFace.

Из этой "звёздной" команды только 5 компаний разрабатывают собственные модели, 7 используют сторонние API или опенсорс-решения, а 2 являются агрегаторами моделей.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6728🔥10😁6🤔1
⚡️ 200+ готовых сценариев для n8n

Нашёл простой и полезный ресурс: GitHub-репозиторий с 200+ бесплатными workflow для n8n.

Темы: продажи, маркетинг, учёт финансов, кодинг и личная продуктивность.

Что такое n8n
- Open-source инструмент для автоматизации без кода
- Визуальный конструктор: соединяете блоки и получаете процесс
- Есть сотни интеграций: почта, CRM, таблицы, мессенджеры, вебхуки
- Можно добавлять свою логику на JavaScript
- Запуск по расписанию или по событию, работает в облаке или на своём сервере

Как воспользоваться:
1) Скачайте нужный workflow (.json) и импортируйте в n8n
2) Вставьте свои API-ключи и учётные данные в блоки
3) Проверьте шаги и включите запуск по cron или webhook

Github

Update - еще 300 готовых решений: https://github.com/kossakovsky/n8n-installer

@ai_machinelearning_big_data

#n8n #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
144👍18🥰6🔥4🤣3💋2
Media is too big
VIEW IN TELEGRAM
✔️ Microsoft AI представила первые полностью собственные ИИ-модели.

Корпорация анонсировала 2 новые модели, разработанные полностью внутри компании: MAI-Voice-1 для синтеза речи и большую языковую модель MAI-1-preview. Разработку возглавляет Мустафа Сулейман, сооснователь DeepMind, который теперь руководит подразделением Microsoft AI.

Модель MAI-Voice-1 может генерировать минуту высококачественного аудио менее чем за секунду на одном GPU. Она уже используется в некоторых функциях Copilot и доступна для тестирования разработчиками.

MAI-1-preview - первая собственная фундаментальная языковая модель Microsoft. Она уже проходит тестирование на LMArena, и в ближайшие недели ее начнут интегрировать в отдельные функции Copilot. Внешним разработчикам также предоставят ранний доступ.
microsoft.ai

✔️ Copilot появился на телевизорах и мониторах Samsung.

Microsoft интегрировала Copilot в линейки Neo QLED, OLED и The Frame телевизоров и мониторов Samsung . Ассистент доступен через операционную систему Tizen в интерфейсе «Samsung Daily+» и активируется кнопкой микрофона на пульте.

Пользователи могут задавать вопросы, получать рекомендации и искать информацию о фильмах. Ответы предоставляются в виде голосовых реплик и визуальных карточек с изображениями и рейтингами. На экране появляется анимированный персонаж, синхронизирующий мимику с разговором. Функция бесплатна, но на старте доступна только в некоторых регионах.
microsoft.com

✔️ Google открыла бесплатный доступ к ИИ-видеоредактору Vids.

Google сделала Vids доступным для всех владельцев аккаунтов Google. Ранее инструмент был эксклюзивом для подписчиков Workspace. Бесплатная версия включает базовые шаблоны, доступ к стоковым медиа и часть ИИ-возможностей.

Одновременно с этим, подписчики Workspace и Google AI получили новые премиум-функции: image-to-video на базе Veo 3, фотореалистичные ИИ-аватары, способные зачитывать текст пользователя, и функция автоматической обрезки, которая убирает паузы и слова-паразиты из записанной речи. В будущем появятся функции шумоподавления и поддержка вертикальных форматов кадра.
workspace.google.com

✔️ Anthropic начнет обучать модели Claude на данных пользователей.

Компания объявила о кардинальном изменении своей политики конфиденциальности. Теперь данные из чатов и сессий кодирования пользователей будут использоваться для обучения ИИ-моделей компании, а срок их хранения увеличится до 5 лет. Новые правила вступают в силу 28 сентября.

Изменение коснется всех потребительских тарифов Claude, включая бесплатный. При этом оно не затронет корпоративные и образовательные планы, а также использование через API. Пользователям будет предложено сделать выбор во всплывающем окне. Важно отметить, что опция, разрешающая использование данных, включена по умолчанию.

Хотя решение можно будет изменить в любой момент в настройках, это не будет иметь обратной силы для уже собранных данных.
anthropic.com

✔️ Исследование: люди начали использовать в речи слова, характерные для ChatGPT.

В Университете штата Флорида провели исследование 22 миллионов слов из подкастов и спонтанной речи и обнаружили статистически значимый рост употребления терминов, которые часто используют большие языковые модели, в частности, ChatGPT.

С момента публичного запуска чат-бота в конце 2022 года частота использования слов "surpass", "boast", "meticulous" и "strategically", выросла более чем вдвое. В то же время, частота их синонимов, не популярных у ИИ, не изменилась.

Исследователи отмечают, что впервые в новейшей истории лингвистики наблюдается столь быстрый и масштабный сдвиг в словарном запасе, вызванный нечеловеческим фактором.
news.fsu.edu

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4428👍13🔥4💘2🤔1
⚡️ OLMoASR: открытые ASR-модели от AI2.

Институт искусственного интеллекта Аллена выпустил OLMoASR, семейство из 6 моделей для автоматического распознавания английской речи.

▶️Линейка моделей:

🟢OLMoASR-tiny.en (39M);
🟢OLMoASR-base.en (74M);
🟢OLMoASR-small.en (244M);
🟢OLMoASR-medium.en (769M);
🟠OLMoASR-large.en-v1 (1.5B) обученная на 440 тыс. часов аудио;
🟠OLMoASR-large.en-v2 (1.5B) обученная на 680 тыс. часов аудио;

По результатам тестов на 21 датасете, модели OLMoASR показали производительность, сопоставимую с Whisper от OpenAI, а в некоторых случаях и превзошли ее, особенно при работе с длинными аудиозаписями.

Проект полностью открытый: опубликованы не только веса моделей, но и датасет, код для обработки данных, а также скрипты для обучения и оценки. Все компоненты, включая код и данные, доступны на GitHub и Hugging Face.


📌Лицензирование:  Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Техотчет
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ASR #OLMoASR #AI2
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3915👍8🥰6
Media is too big
VIEW IN TELEGRAM
✔️ Следующая модель семейства LLama выйдет к концу этого года.

Разработкой занимается новое подразделение компании Марка Цукерберга Superintelligence Labs. Модель, которую некоторые внутри компании называют Llama 4.5, должна исправить недостатки предыдущих версий: слабую производительность в кодинге и логических рассуждениях. Параллельно команда работает над исправлением ошибок в уже выпущенных версиях Llama 4 и фоном допиливает флагманскую модель "Behemoth".
businessinsider.com

✔️ Apple опубликовала семейство моделей FastVLM.

FastVLM - линейка ультрабыстрых VL-моделей с гибридным энкодером FastViTHD, который значительно сокращает количество визуальных токенов и ускоряет их обработку. В сравнении с LLaVA-1.5, FastVLM показала в 3.2 раза более быстрый TTFT при сопоставимой производительности, а с LLaVa-OneVision модель достигает аналогичных результатов на бенчмарках, используя в 3.4 раза меньший энкодер.

В семейство входят три модели размером 500 миллионов, 1.5 миллиарда и 7 миллиардов параметров. Все они уже доступны на Hugging Face для некоммерческого использования.
huggingface.co

✔️ PixVerse запустила новую модель V5 для генерации видео.

Обновление принесло значительные улучшения в качестве движений, визуальной детализации, согласованности и точности исполнения текстовых запросов. Новая функция Agent позволяет создать 5–30-секундный ролик, просто загрузив одно фото.

Генерация видео в разрешении 360p занимает 5 секунд, а 1080p - около минуты. До 1 сентября 2025 года доступ к V5 предоставляется бесплатно. Модель работает через веб-интерфейс, мобильные приложения и API.
Pixverse в сети X

✔️ Google встроила Gemini CLI в редактор кода Zed.

Интеграция позволяет разработчикам генерировать и рефакторить код, а также общаться с ИИ, не покидая редактор. Изменения применяются в реальном времени и могут быть проверены в интерфейсе, похожем на pull-request.

Gemini работает через открытый протокол Agent Client Protocol, созданный Zed для связи ИИ-агентов со средами разработки. Zed основан на Rust и позиционируется как открытая альтернатива Microsoft VS Code.
developers.googleblog.com

✔️ В Финляндии разработали умную упаковку с ИИ-распознаванием.

Исследователи из Университета Ваасы предложили дешевую и экологичную альтернативу электронным датчикам для контроля состояния продуктов. Технология основана на использовании функциональных чернил, которые меняют цвет при изменении температуры или влажности, а сверточные нейронные сети с высокой точностью распознают даже малейшие изменения, которые не улавливают традиционные методы машинного зрения. Это решает проблему своевременного обнаружения порчи или повреждений.

Такие индикаторы можно наносить прямо на упаковку вместе с обычными этикетками, что почти не увеличивает стоимость. Технология может найти применение в пищевой промышленности и в фармацевтике для отслеживания условий хранения продукции.
interestingengineering.com

✔️ Скандал: xAI подала в суд на бывшего инженера

xAI обвиняет Xuechen Li в краже технологий Grok и попытке передать их OpenAI.
Факты:
- Продал акции xAI на $7 млн и уволился.
- Скопировал секретные файлы Grok на личное хранилище.
- Удалял логи и признался письменно.
xAI требует: вернуть и удалить данные, запретить Li работать над ИИ в OpenAI и выплатить компенсацию.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6728🔥14💘1
📌Qwen тизернул новые релизы в сентябре.

Официальный аккаунт Qwen в сети X (ex-Twitter) написал, что сентябрь обещает быть "потрясающим" и нам всем нужно готовиться к волне интересных событий.

Делаем ставки, господа.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥89👍2613🥰8😁1💘1
🌟 Google Labs запустила инструмент для структурированной оценки языковых моделей.

Stax - экспериментальный инструмент для разработчиков, который предлагает замену неформальному «вайб-тестингу» больших языковых моделей на структурированный, основанный на данных подход.

Stax оценивает модели на кастомных или готовых автоматизированных оценщиках, фокусируясь на метриках: беглость ответа, безопасность, задержка и процент успешного прохождения ручной проверки.

Есть дашборд для сравнения результатов разных моделей с визуальными индикаторами производительности.

Ключевые возможности: быстрые и повторяемые оценки, настройка метрик под конкретные продукты и сквозной рабочий процесс для экспериментов от прототипа до продакшена.

Инструмент должен помочь разработчикам принимать обоснованные решения при выборе и развертывании моделей.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
153👍16🔥6🤬4👀4
💡 Исследователи из ByteDance и Stanford предложили новый метод для генерации длинных видео — Mixture of Contexts.

🔑 В чём проблема:
Когда видео становится длинным, внимание модели сильно «раздувается»: растёт стоимость вычислений, модель теряет детали на генерациях, забывает персонажей и «дрейфует».

Чем интересен Mixture of Contexts:
- Видео разбивается на куски (кадры, шоты, подписи).
- Каждый запрос выбирает только нужные чанки, вместо того чтобы учитывать всю историю.
- Для этого используется простая оценка релевантности: сравнение признаков чанков с текущим запросом.
- Обязательно учитываются два «якоря»: полный текстовый промпт и локальный шот для деталей видео.
- Causal mask блокирует внимание к будущим кадрам, чтобы не было зацикливаний.
- Дальше применяется Flash Attention только к выбранным чанкам — вычисления растут не с длиной всего видео, а только с полезным контекстом.

📊 Результаты:
- В 7 раз меньше FLOPs
- В 2.2 раза быстрее работа
- На длинных сценах (180k токенов) отсекается 85% ненужного внимания

🎥 Итог:
- Короткие клипы сохраняют качество
- Длинные сцены становятся более плавными, а персонажи — стабильными
- Время генерации заметно сокращается

Главное: модель учится сама понимать, на что смотреть, получая «память» на минуты видео без изменения базовой архитектуры.

🟠 Подробнее

@ai_machinelearning_big_data

#AI #ML #ByteDance #Stanford #videogeneration
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
113🔥31👍21👏2🥱1💘1
Media is too big
VIEW IN TELEGRAM
✔️ Grok Code Fast 1 возглавила рейтинг OpenRouter по объему использования.

OpenRouter выступает в роли единого API для доступа к множеству LLM, а его лидерборд отслеживает реальный объем использования моделей по количеству сгенерированных токенов.

Резкий рост популярности, скорее всего, связан с удачным позиционированием и экономикой. Grok Code Fast 1 предлагается как быстрый и недорогой инструмент для агентного кодинга. Выгодная цена и большой контекст делают модель идеальной для инструментов с высоким трафиком: IDE-ассистентов и кодинг-агентов, которые доминируют в списке самых популярных приложений на OpenRouter.

Важно понимать, что рейтинг отражает именно объем генерации, а не качество или точность модели. Он не измеряет безопасность или корректность кода. Поэтому первое место следует трактовать как "самая используемая модель на данной платформе в текущий момент", а не как "лучшая модель на рынке".
openrouter.ai

✔️ Droplet3D: модель генерации 3D-объектов.

Команда из Университета Цинхуа разработала новый метол создания 3D-контента — Droplet3D, который использует видео для обучения моделей. Он извлекает из видеоданных информацию о пространственной согласованности и семантике объектов, что позволяет генерировать более качественные и разнообразные 3D-модели.

Для обучения была создан датасет Droplet3D-4M из 4 миллионов 3D-объектов с подробными текстовыми описаниями. На его основе дообучили видео-диффузионную модель DropletVideo.

Модель создает по текстовому запросу или изображению последовательные многовидовые рендеры, причем не только отдельных объектов, но и целых сцен. Код, набор данных и веса модели опубликованы в открытом доступе под лицензией Apache 2.0.
dropletx.github.io

✔️ Компания G42 ведет переговоры с Google, Microsoft и AWS о размещении в ИИ-кампусе в ОАЭ.

Среди потенциальных арендаторов: AWS, Google, Microsoft и xAI, причем с Google переговоры продвинулись дальше всего.

Проект мощностью 5 ГВт станет крупнейшим объектом ИИ-инфраструктуры за пределами США. 1 Гвт уже зарезервирован под дата-центр Stargate от OpenAI, MGX, Softbank и Oracle. Остальные мощности G42 планирует оснащать чипами от AMD, Cerebras и Qualcomm, чтобы диверсифицировать поставки и не зависеть только от Nvidia.

Одной из бизнес-моделей кампуса станет концепция "цифровых посольств". G42 разрабатывает предложение для иностранных правительств по размещению их данных в ОАЭ, что может стать безопасной альтернативой, защищенной от стихийных бедствий и кибератак.
semafor.com

✔️ Квантовые сигналы впервые передали по обычному оптоволокну.

Инженеры из Университета Пенсильвании впервые успешно передали квантовые сигналы через коммерческие оптоволоконные сети с использованием стандартных интернет-протоколов (IP). Команда разработала специальный "Q-чип", который упаковывает квантовые сигналы вместе с традиционными, что позволяет им стабильно передаваться по обычным оптоволоконным линиям, при этом система автоматически корректирует шумовые помехи.

До этого момента квантовая связь требовала специализированной, изолированной инфраструктуры. Теперь доказана возможность использования существующих сетей, а это удешевляет и ускоряет создание квантового интернета.
science.org

✔️ Остров Ангилья зарабатывает миллионы на ИИ. Но есть нюанс

Небольшой карибский остров Ангилья, неожиданно стал одним из главных бенефициаров ИИ-лихорадки. Еще в 1980-х годах острову было присвоено доменное имя .ai, которое теперь оказалось "золотой жилой". В 2024 году доходы Ангильи от продажи доменов составили 39 млн. долларов, это почти четверть (23%) всех доходов территории. Количество сайтов в зоне .ai за последние 5 лет выросло более чем в 10 раз, а за последний год — удвоилось.

Цены на премиальные имена достигают рекордных отметок: домен you.ai был продан за 700 тыс. долларов.
bbc.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍4935🔥5🤣3💘1
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI приобрела аналитическую платформу Statsig за $1,1 млрд.

Компания объявила о покупке Statsig - платформы, специализирующейся на продуктовой аналитике и A/B-тестировании. Ее основатель и CEO Statsig, Виджая Раджи, будет назначен на пост технического директора по приложениям (CTO of Applications) в OpenAI. Он возглавит продуктовую инженерию для ChatGPT и Codex. Вся команда Statsig присоединится к OpenAI, однако сама платформа продолжит работать независимо и обслуживать текущих клиентов.
openai.com

✔️ ChatGPT получит обновление системы безопасности.

OpenAI анонсировала новые функции безопасности для ChatGPT для на защиты молодых пользователей и помощи в кризисных ситуациях. Первая новинка - система автоматической маршрутизации: при обнаружении признаков острого психологического стресса разговор будет передаваться "думающим" моделям. Они обучены с помощью метода Deliberative Alignment и дают более медленные и взвешенные ответы. Обновление планируется выпустить в течение 120 дней.

В ближайший месяц также появятся функции родительского контроля. Родители смогут связывать свои аккаунты с аккаунтами подростков от 13 лет, чтобы устанавливать ограничения и получать оповещения, если система зафиксирует у ребенка признаки кризисного состояния.
openai.com

✔️ Швейцария представила национальную опенсорсную LLM.

В Швейцарии состоялся запуск Apertus — национальной LLM с открытым исходным кодом. Проект, разработанный консорциумом государственных институтов, позиционируется как альтернатива коммерческим моделям. Apertus полностью прозрачен: разработчики опубликовали не только саму модель, но и исходный код процесса обучения, документацию и использованные наборы данных.

Модель обучена на 15 трлн. токенов и поддерживает более 1000 языков, 40% данных - не на английском. Apertus создавалась с учетом швейцарских и европейских законов о защите данных и авторском праве, что делает ее привлекательной для местного бизнеса. Модель доступна на Hugging Face в 2 версиях: 8 и 70 млрд. параметров.
swissinfo.ch

✔️ Dolby представила новый стандарт Dolby Vision 2 с ИИ.

Dolby Vision 2 - следующее поколение формата HDR, который постепенно заменит Dolby Vision и Dolby Vision IQ. Особенность новой технологии - использование ИИ для динамической подстройки качества изображения в реальном времени.

Система Content Intelligence будет анализировать сцены, учитывать условия освещения в комнате и с помощью машинного обучения корректировать картинку "на лету". Например, функция Precision Black улучшит детализацию в темных сценах, а Light Sense адаптирует изображение под окружающую среду.

Первым производителем, который внедрит Dolby Vision 2, станет Hisense, а первым чипом со встроенной поддержкой нового стандарта будет MediaTek Pentonic 800.
dolby.com

✔️ В ЦЕРН использовали ИИ для поиска редкого распада бозона Хиггса.

ЦЕРН применила методы машинного обучения для поиска редких событий - распада бозона Хиггса на два charm-кварка. Эта задача критически важна для проверки Стандартной модели, так как взаимодействие бозона с легкими кварками, из которых состоит обычная материя, до сих пор экспериментально не подтверждено.

Основная сложность заключалась в идентификации так называемых «джетов», порожденных именно charm-кварками. Для этого исследователи использовали графовую нейронную сеть, обученную на сотнях миллионов симуляций, а для отделения реальных событий от фонового шума была задействована сеть, архитектурно схожая с ChatGPT.

В результате анализа данных, собранных на БАК, удалось установить самые строгие на сегодняшний день ограничения на силу взаимодействия бозона Хиггса с charm-кварком. Это значительный шаг в понимании механизма, который придает массу фундаментальным частицам.
scitechdaily.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4524🔥9🥰6💘4👏1
📌Как заставить нейросеть забыть данные, к которым больше нет доступа.

Представьте, что вам прилетает требование на удаление данных в соответствии с GDPR или по авторскому праву, а исходного датасета, на котором обучалась модель, у вас уже нет. Переобучить модель с нуля - долго, дорого и не вариант.

Именно для таких безвыходных ситуаций, группа исследователей из Калифорнийского университета создала метод "разучивания" для моделей, который не требует доступа к исходным данным, но при этом дает строгие математические гарантии удаления информации.

Метод построен на использовании суррогатного датасета, который лишь статистически похож на оригинальный. Ключевая идея - калибровка добавляемого в модель шума, количество которого напрямую зависит от статистической дистанции (например, дивергенции Кульбака-Лейблера) между оригинальным и суррогатным распределениями.

Если коротко, то чем меньше суррогатный набор данных похож на тот, что был утерян, тем больше шума придется добавить, чтобы гарантировать, что модель действительно забыла ненужные данные и стала неотличима от гипотетически переобученной с нуля.

🟡А как измерить эту дистанцию без доступа к оригиналу?

Для этого используется сама модель, ведь она неявно хранит информацию о распределении данных, на которых училась. С помощью метода стохастической градиентной динамики Ланжевена генерируется выборка, которая аппроксимирует исходное распределение, и уже на ее основе можно оценить расхождение с суррогатным датасетом.

🟡Тесты и их результаты.

На синтетических данных, где можно вычислить точную KL-дивергенцию, их метод, "Unlearn -", показал себя отлично. При увеличении расхождения между датасетами точность на тесте держится на уровне 72.3-72.7%, что сопоставимо с методом, имеющим доступ к исходникам "Unlearn +".

На реальных датасетах картина такая же. Для CIFAR-10, при параметре концентрации Дирихле=36, метод "Unlearn -" достигает 76.4% точности на тестовой выборке. Для сравнения, "Unlearn +" показал 76.5%, а полное переобучение - 76.7%. Разница минимальна.

Эффективность метода доказывает и метрика Forget Score (FS), которая показывает, насколько разучившаяся модель близка к переобученной с нуля. FS их метода практически идентичен идеальному показателю.

Гибкость подхода проверили и на разных архитектурах. На CIFAR-10 с моделью из двух свёрточных слоёв и одного линейного метод показал 80.5% точности на тесте, а версия с доступом к данным - 81.4%.

В эксперименте, где для модели на датасете USPS в качестве суррогата использовался MNIST, "Unlearn -" достиг 90.4% точности, что совсем немного уступает 91.3% у "Unlearn +" и 91.1% у полного переобучения


🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #Unlearning #UCR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36👍1611🥰6😁2👀2💯1🗿1💘1
🌟 Genie Envisioner: платформа, которая учит роботов действовать, просто смотря видео.

Genie Envisioner (GE) — унифицированная платформа от AgiBot Genie Team, где обучение, симуляция и оценка объединены в рамках одной видеогенеративной модели.

🟡GE-Base

В основе всей системы лежит GE-Base, диффузионная видеомодель, натренированная на огромном датасете из миллиона эпизодов реальных манипуляций, записанных с нескольких камер, общей продолжительностью почти 3000 часов.

Модель училась предсказывать следующие кадры видео на основе текстовой инструкции и предыдущих наблюдений, таким образом формируя внутреннее представление о физике мира и динамике объектов.

🟡GE-Act

Но предсказывать видео - это одно, а выполнять действия - совсем другое. За это отвечает второй компонент, GE-Act. Это легковесный модуль на 160 млн. параметров, который подключается к GE-Base и преобразует ее внутренние представления в конкретные команды для моторов робота.

Проще говоря, он переводит предсказания в исполняемые траектории. Причем делает это быстро: на генерацию последовательности из 54 шагов уходит всего 200 миллисекунд на NVIDIA RTX 4090, что позволяет использовать систему в реальном времени.

🟡GE-Sim

Замыкает троицу компонент GE-Sim - нейронный симулятор, построенный на той же GE-Base. Он позволяет прогонять тысячи симуляций в час для оценки политик без использования реального железа.

Чтобы объективно измерять качество таких видео-симуляторов, авторы разработали собственный бенчмарк EWMBench. Он оценивает не только визуальную правдоподобность, но и физическую консистентность и соответствие действий инструкциям.

На этом бенчмарке GE-Base ожидаемо обошла все современные генеративные видеомодели: Kling, OpenSora и COSMOS, набрав итоговый балл 4.70, в то время как ближайший соперник, Kling, получил 3.87.


🟡Страница проекта
🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Robotics #GenieEnvisioner #AgiBot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
30👍18🔥11🥰5🤩1🥱1💘1
Media is too big
VIEW IN TELEGRAM
✔️ Apple продолжает терять ИИ-таланты.

Apple накрыла волна увольнений ведущих инженеров из ИИ-подразделения. Jian Zhang, возглавлявший исследования ИИ в области робототехники, перешел к Марку Цукербергу. За ним последовали еще 3 ключевых сотрудника из команды Foundation Models, которая занималась разработкой платформы Apple Intelligence. Всего, за последнее время, команда потеряла около 10 человек.

Основными причинами ухода называют как агрессивный наем со стороны конкурентов, предлагающих огромные зарплаты, так и внутренние проблемы. Низкий моральный дух в команде связывают со слабой реакцией на анонс Apple Intelligence и возможным решением компании использовать сторонние ИИ-модели вместо собственных разработок.
bloomberg.com

✔️ В NotebookLM добавили 3 новых аудиорежима.

ИИ-платформа для работы с заметками NotebookLM получила крупное обновление аудиофункций. Теперь сервис может генерировать на основе пользовательского контента аудио-дорожки в 3 новых форматах.

Режим «Brief» создает быструю двухминутную аудиосводку по ключевым идеям. В режиме «Critique» два ИИ-собеседника анализируют текст, выступая в роли редакторов. Самый необычный формат — «Debate», который имитирует спор с противоположными точками зрения для стресс-теста идей. Кроме того, добавили новые мужские и женские голоса, чтобы дать пользователям больше возможностей для персонализации.
NotebookLM в сети Х

✔️ ElevenLabs обновила модель генерации звуков.

Этот релиз - вторая версия модели SFX для генерации звуковых эффектов по текстовому описанию. В v2 повысили качество звука и частотe дискретизации до 48 кГц, а максимальная длительность увеличена с 22 до 30 секунд. Добавилась возможность бесшовно создавать зацикленные звуки, что особенно полезно для фоновых эмбиент-дорожек. Генерация доступна как через веб-интерфейс, так и по API.

Обновление затронуло и связанный инструмент SB-1 Soundboard — браузерную звуковую панель, которая теперь также поддерживает модель v2 и получила поддержку MIDI. Новые звуковые эффекты доступны в форматах MP3 и WAV на всех тарифных планах, включая бесплатный.
ElevenLabs в сети Х

✔️ Amazon запустил поиск товаров по видео в реальном времени.

Amazon представил функцию Lens Live, которая обновляет визуальный поиск в мобильном приложении. Теперь пользователям не нужно делать снимок — достаточно навести камеру на объект, и система в реальном времени начнет показывать совпадающие или похожие товары из каталога. Прямо в интерфейсе камеры можно сфокусироваться на конкретной вещи, добавить ее в корзину или список желаний. В Lens Live интегрирован ИИ-ассистент Rufus, который предлагает краткие сводки о товаре и генерирует уточняющие вопросы.

Технически решение работает на базе легковесной on-device CV-модели для распознавания объектов. Для сопоставления с базой данных Amazon применяется модель глубокого обучения с использованием Amazon OpenSearch и SageMaker. Функция уже доступна части пользователей в США на iOS.
aboutamazon.com

✔️ Microsoft создала аналоговый оптический компьютер.

Microsoft совместно с банком Barclays разработала архитектуру аналогового оптического компьютера (AOC) для решения задач оптимизации и ИИ. Согласно исследованию, опубликованному в Nature, новая система решает "проблему Фон Неймана", объединяя вычисления и память, и не нуждается в цифро-аналоговых преобразованиях.

Расчетная производительность AOC - 500 TOPS на ватт при 8-битной точности. Это делает его более чем в 100 раз энергоэффективнее топовых графических процессоров. Система построена на базе доступных компонентов: проекторы, линзы и сенсоры, а вычисления производятся за счет изменения интенсивности проходящего света.

Microsoft планирует поделиться с научным сообществом алгоритмом-решателем и цифровым двойником установки для дальнейшего изучения технологии.
news.microsoft.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5928👍18💘1
🌟 POINTS-Reader: компактная VLM для OCR без дистилляции и сложной обвязки.

Tencent опубликовали довольно интересный проект - POINTS-Reader. Это VLM для OCR английского и китайского языков на 4 млрд. параметров на базе Qwen2.5-3B-Instruct, которая обошла GPT-4o и Gemini на бенче OmniDocBench.

POINTS-Reader - это философия предельной простоты c прямолинейным конвейером: на вход подается изображение документа и фиксированный промпт, а на выходе получается извлеченный текст.

Никаких этапов постобработки, скриптов для очистки или дополнительных моделей — результат сразу готов к использованию.

Помимо скромной базовой Qwen2.5, в POINTS-Reader использовали умеренный по нынешним меркам Vision Transformer - NaViT на 600 млн. параметров. И это осознанный инженерный шаг в угоду простоте и производительности.

Современные фреймворки для инференса, будь то SGLang или vLLM, в первую очередь оптимизированы под LLM-часть, из-за чего громоздкий ViT становится узким местом и серьезно замедляет всю систему.

Такая компактная архитектура превосходно показала себя на тестах. На комплексном OmniDocBench модель набрала 0.133 для английских документов и 0.212 для китайских. Эти цифры ставят POINTS-Reader в один ряд с гораздо более тяжелыми и сложными системами.

Секрет проекта кроется в двухэтапной стратегии подготовки данных, которая полностью отказывается от дистилляции знаний у моделей-учителей.

На первом этапе модель получает базовые навыки OCR, обучаясь на синтетике. Дальше начинается самый интересный этап — непрерывная самоэволюция. Модель используется для генерации аннотаций на реальных документах, после чего лучшие из полученных образцов используются для ее дообучения. Этот итеративный процесс позволяет постоянно повышать качество как самой модели, так и генерируемых ею данных.


Этот метод к самосовершенствованию описан в техотчете как очень гибкий и применимый, по словам Tencent, практически к любой другой архитектуре.

🟡Как в любом проекте - есть нюансы.

Модель пока не очень уверенно справляется со сложными макетами, вроде газетной верстки, что может приводить к повторению или пропуску контента. Аналогичные трудности возникают и при обработке рукописного текста, например, в чеках или заметках. Кроме того, на данный момент POINTS-Reader поддерживает только английский и китайский языки.

▶️ Запустить эту прелесть модель можно на Transformers или в SGLang. Поддержку vLLM обещают добавить.


🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #POINTSReader #Tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
38👍16🔥5🥰2💋2💘1
🚀 Google выпустила EmbeddingGemma: лёгкую open-source модель для текстовых эмбеддингов.

Модельку можно запускать прямо на телефоне или ноутбуке, без интернета и с сохранением приватности.

EmbeddingGemma - новый лидер среди открытых многоязычных моделей <500M на MTEB

🟢Что внутри:
308M параметров, но по качеству обгоняет все модели до 500M (по MTEB)
• Работает очень быстро: менее 15 мс на EdgeTPU (256 токенов)
• Понимает 100+ языков
• Размер эмбеддингов можно уменьшать (768 → 128) без потери качества
• Контекст до 2000 токенов
• Уже доступна в Sentence-Transformers, LangChain, llama.cpp, transformers.js, Weaviate и др.

🟠Blog: https://developers.googleblog.com/en/introducing-embeddinggemma/
🟠Models: https://huggingface.co/collections/google/embeddinggemma-68b9ae3a72a82f0562a80dc4

@ai_machinelearning_big_data

#AI #Google #Gemma #EmbeddingGemma #ML #DeepLearning #LLM #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍93🔥2722🥰2🤔2💘1
Media is too big
VIEW IN TELEGRAM
✔️ Projects в ChatGPT стали доступны для всех.

Функция "Проекты" (Projects) теперь доступна не только по подписке, но и для бесплатных пользователей ChatGPT. "Проекты" работают как цифровые рабочие пространства, где можно объединять чаты, справочные файлы и пользовательские инструкции, связанные с одной долгосрочной задачей. Основная фишка "Проектов" - встроенная память. ChatGPT запоминает контекст всех разговоров и документов в рамках конкретного проекта.

Вместе с этим OpenAI увеличила лимиты на загрузку файлов (до 5 для бесплатных аккаунтов, Plus до 25, а Pro до 40), добавила элементы управления памятью для каждого проекта и возможность их кастомизации. Обновление уже доступно в веб-версии и в приложении для Android, релиз для iOS ожидается в ближайшее время.
OpenAI в сети X

✔️ DeepSeek работает над автономным ИИ-агентом.

Китайский стартап разрабатывает платформу на базе агентного ИИ. Новая система проектируется для самостоятельного выполнения многошаговых задач от имени пользователя, требуя лишь минимальных начальных инструкций.

Ключевой особенностью ИИ-агента станет способность к самообучению и улучшению своих действий на основе предыдущего опыта. По информации от источников, знакомых с планами компании, основатель DeepSeek Лян Вэньфэн нацелен на запуск нового программного обеспечения уже в четвертом квартале этого года.
bloomberg.com

✔️ CoreWeave покупает OpenPipe.

Облачный провайдер CoreWeave объявил о приобретении стартапа OpenPipe. Компания помогает разработчикам создавать кастомизированные ИИ-агенты с использованием RL через свой популярный опен-сорс инструментарий ART (Agent Reinforcement Trainer).

Эта сделка продолжает стратегию CoreWeave по расширению технологического стека, начатую с покупки платформы Weights & Biases в марте. Вся команда и клиентская база OpenPipe переходят в CoreWeave. Финансовые условия сделки стороны не раскрывают.
businesswire.com

✔️ OpenAI запускает платформу для трудоустройства и сертификации ИИ-специалистов.

Компания анонсировала создание собственной экосистемы для найма, которая объединит ИИ-платформу для поиска работы и расширенную программу сертификации, чтобы напрямую связать работодателей с кандидатами, чьи навыки в области ИИ можно верифицировать. Сама платформа будет использовать модели для сопоставления компетенций соискателей с требованиями вакансий, опираясь на собственную таксономию навыков.

Система сертификации вырастет из OpenAI Academy и предложит несколько уровней квалификации: от базовой ИИ-грамотности до продвинутого промпт-инжиниринга. Процесс обучения и сдачи экзаменов будет интегрирован в режим Study непосредственно в ChatGPT. Для корпоративных клиентов предусмотрена интеграция через SSO и API, а также механизм обратной связи для адаптации учебных курсов под реальные запросы рынка.
openai.com

✔️ NVIDIA и Университет Эссекса провели крупнейшую в истории симуляцию в статистической физике.

Инженеры из Университет Эссекса при поддержке NVIDIA установили новый мировой рекорд в компьютерном моделировании. Эксперимент позволил впервые на практике наблюдать термодинамический предел — ключевое понятие, объясняющее, как свойства материи проявляются в макроскопических системах.

Для симуляции использовалась стоечная архитектура NVIDIA GB200 NVL72, которая позволила смоделировать поведение до 70 триллионов взаимодействующих частиц. Система достигла рекордной производительности почти в 115 000 обновлений решетки в наносекунду.

Результаты исследования, опубликованные в Physical Review Research, могут ускорить разработку новых дисплеев, магнитных материалов и дать более глубокое понимание фундаментальных свойств материи.
essex.ac.uk


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
131👍22🔥11💘1
🌟 На Hugging Face вышла обзорная статья об открытых ML-датасетах

Автор новостного ресурса Daily Dose of Data Science собрал самые интересные релизы крупных датасетов и моделей. Среди них — Yambda-5B от команды Яндекса, крупнейший в мире открытый музыкальный рекомендательный датасет.

В Yambda-5B 4,79 млрд обезличенных взаимодействий: прослушивания, лайки и дизлайки треков. Датасет уже привлек внимание мировых исследователей и обещает стать важным инструментом для развития рекомендательных систем.

🔗 Подробнее

@ai_machinelearning_big_data

#ai #ml #dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍19🥰98😁2🍓2🗿2💘1
🌟 InfoSeek: синтез данных для deep‑research с формализацией HCSP.

BAAI представила InfoSeek — открытую методику синтеза данных и учебный контур для глубоких исследований. Задачи такого класса выходят за рамки обычного извлечения фактов: модель должна раскладывать вопрос на подзадачи, координировать многошаговое рассуждение и проверять ответы по источникам.

Эти задачи формализуются как HCSP — иерархические задачи удовлетворения ограничений, решение которых возникает только при последовательном сужении кандидатов на нескольких уровнях, где каждый внутренний узел сам является подзадачей, а зависимость между узлами образует дерево исследования.


Базовая идея проста: данные строятся вокруг древа исследования. Вершины - сущности или атомарные факты, ребра - проверяемые отношения из Википедии и открытых страниц. Алгоритм синтеза явно управляет структурой, чтобы исключить недоопределенность или ранние "короткие замыкания".

В HCSP ответ формально равен пересечению множеств, заданных текущими ограничениями и рекурсивными подвопросами; в терминах дерева корень — финальный ответ. Такой подход не только задаёт глубину и ширину рассуждения, но и делает каждый промежуточный шаг проверяемым по конкретным утверждениям.

🟡Синтез выполняет связка из 2 агентов.

Планировщик контролирует глобальную сложность, выбирая цель и тип расширения, а Браузер добывает факты и ссылки из страницы сущности. 4 операции покрывают весь жизненный цикл:

🟢Инициализация из "якоря";

🟢"Размытие родителя" - добавление нескольких независимых условий, которые в совокупности определяют уникальный ответ без включений между кандидатами;

🟢Вертикальное углубление по гиперссылке для увеличения высоты дерева;

🟢Генерация текста вопроса лишь после того, как каждый узел имеет достаточный набор проверяемых ограничений и достигнуты заданные метрики сложности.

Качество контролируется по 2 осям: сложность и проверяемость. Сначала вопросы прогоняются "в лоб": если мощная базовая модель отвечает правильно без поиска, образец исключается, так было отсеяно около 2%. Затем проверяется решаемость на фиксированном наборе страниц с примесями-дистракторами и все двусмысленное удаляется.

Итог: датасет с 50 тыс. пар вопрос–ответ и 16,5 тыс. траекторий размышлений с метками извлечения.

🟡Эксперименты.

Тесты показали, что InfoSeek переносится за пределы домашнего домена. На классических наборах для извлечения фактов и мульти‑hop вопросов компактная модель InfoSeeker‑3B опережает типовые RAG и агентные пайплайны.

На BrowseComp‑Plus с фиксированным корпусом 100K страниц и BM25 точность достигает 16,5% при среднем 8,24 обращения к поиску, что выше, чем у Gemini 2.5 Flash, Sonnet 4 и GPT‑4.1 и значительно выше Qwen3‑32B и Search‑R1‑32B.

Замена обучающего набора NQ+HQA на InfoSeek поднимает точность с 3,0% до 16,5% и делает запросы осмысленно более частыми.

▶️ Из готового у проекта есть датасет, техотчет, конструктор древа данных и код для SFT- трейна. В планах - код RL и публикация весов InfoSeeker‑3B.


📌Лицензирование: Apache 2.0 License.


🟡Датасет
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #DeepResearch #Dataset #InfoSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4415🔥9💘1