Математика Дата саентиста
13.5K subscribers
402 photos
134 videos
37 files
349 links
加入频道
Forwarded from Machinelearning
✔️ OpenAI добавила в API модель генерации изображений GPT-Image-1.

OpenAI открыла доступ к GPT-Image-1 через API — ранее она работала только в ChatGPT.
Стоимость генерации тарифицируется по токенам: текст ($5/млн), ввод изображений ($10/млн), вывод ($40/млн). Одно изображение обходится в $0,02–0,19. Например, картинка 1024×1024 в высоком качестве «съест» 4160 токенов. Модель превосходит Midjourney-v7 в точности следования запросам, но имеет ограничения: плохо распознаёт мелкий текст, нелатинские шрифты, медицинские данные.

Изображения можно загружать через URL или Base64 (PNG, JPEG до 20 МБ). Максимальное разрешение — 768×2000 пикселей. API анализирует объекты, цвета, текст, но не подходит для задач с высокой точностью. Для безопасности добавлены фильтры контента и метаданные C2PA. Тестировать модель можно в Playground OpenAI — подробности в гайдах по работе с API.
openai.com

✔️ Kortix AI выпустила Suna — первый в мире опенсорсный ИИ-агент общего назначения.

Suna — открытый ИИ-агент, способный выполнять реальные задачи через чат-интерфейс. В отличие от закрытых коммерческих моделей, Suna работает офлайн, бесплатен и доступен для самостоятельного хостинга.

Suna не просто отвечает на вопросы: он автоматизирует рутину — от парсинга сайтов и генерации отчетов до развертывания веб-приложений. В основе лежит изолированная Docker-среда, React/Next.js для интерфейса и интеграция с LiteLLM, Supabase и Redis. Помимо исходного кода, есть подписка на развернутый у Kortix AI сервис: бесплатно 10 минут в месяц, за 29$ - 4 часа, а за 199\мес - 40 часов работы Suna.
suna.so

✔️ Firefox анонсировал предпросмотр ссылок с локальным ИИ.

Пользователи Firefox теперь могут заглянуть в содержимое ссылки, не открывая ее. Экспериментальная функция в Firefox Labs 138 показывает карточку с заголовком, описанием, временем чтения и тремя ключевыми пунктами, сгенерированными локальной языковой моделью. Все работает через HTTPS-запросы без загрузки страницы или выполнения скриптов — данные парсятся из метатегов Open Graph и Reader View.

Приватность в приоритете: модель SmolLM2-360M (369 МБ) запускается на устройстве через WebAssembly (wllama), избегая передачи данных в облако. Функция пока в тесте: разработчики ждут фидбека об опыте использования от пользователей.
blog.mozilla.org

✔️ xAI добавила 3 новые функции в Grok.

xAI расширила возможности голосового ассистента Grok: Grok Vision, поддержка многоязыкового аудио и поиск в реальном времени в голосовом режиме. Все это уже доступно пользователям iOS, а для Android-устройств две последние опции открыты только с подпиской SuperGrok. Grok Vision, как заявляют разработчики, позволяет ассистенту анализировать экран смартфона и комментировать происходящее «здесь и сейчас» — например, распознавать объекты или текст.
Ebby Amir (xAI) в X (ex-Twitter)

✔️ BMW внедрит ИИ DeepSeek в свои автомобили для Китая .

BMW объявил о партнерстве с DeepSeek для интеграции ИИ-технологий в машины, продаваемые в Китае. Сотрудничество, представленное на Шанхайском автосалоне, направлено на улучшение «Умного персонального ассистента» — система получит новые функции и расширенный доступ к данным.

Интеграция ИИ DeepSeek ускорит переход BMW к «программно-определяемым» автомобилям. Ожидается, что обновления затронут не только ассистента, но и улучшат интерфейсы, а также поддержат более сложные сценарии автономного управления.
bmwblog.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Y Combinator назвал главные тренды лета 2025 для стартапов.

Y Combinator сделал ставку на ИИ-агентов, способных переосмыслить целые индустрии. Вместо точечных решений, основателям советуют создавать «полноценные ИИ-компании» - например, запускать собственные юридические бюро с ИИ-юристами вместо сотрудников. Такой подход позволяет обойти медлительных конкурентов, предлагая клиентам более дешевые и эффективные сервисы.

Особый интерес к автоматизации рутины: персональные ассистенты, которые не просто напоминают о задачах, а самостоятельно отвечают на письма, планируют встречи и имитируют стиль общения пользователя. Y Combinator верит: будущее за командами, которые не просто внедряют ИИ, а перестраивают рынки с нуля, как это сделали Airbnb или Stripe.
ycombinator.com

✔️ ИИ помог создать синтетические ДНК-усилители для контроля генной экспрессии.

Ученые из Центра геномной регуляции в Барселоне впервые применили генеративный ИИ для проектирования синтетических молекул ДНК, способных управлять активностью генов в здоровых клетках млекопитающих. Модель, обученная на данных тысяч экспериментов, генерирует последовательности «с нуля», задавая критерии.

В качестве теста создали фрагменты ДНК, активирующие ген флуоресцентного белка в клетках крови мышей. Результаты совпали с прогнозами: синтетические усилители генной активности работали как «переключатели» в зависимости от типа клеток. Исследование открывает путь к персонализированным методам коррекции генов. По словам авторов, это похоже на «написание софта для биологии», где каждая инструкция для клетки становится программируемой.
technologynetworks.com

✔️ OpenAI запускает HealthBench.

OpenAI представила HealthBench - бенчмарк для тестирования ИИ-систем в сфере здравоохранения. Разработанный при участии 262 врачей из 60 стран, он включает 5000 реалистичных диалогов, имитирующих общение пациентов и медиков. Каждый сценарий оценивается по индивидуальным критериям, созданным экспертами: точность данных или ясность ответов.

Всего в бенчмарке 48 562 параметра оценки, что позволяет глубоко анализировать работу моделей. Особый упор сделан на надежность: даже один ошибочный ответ в медицине критичен. HealthBench включает подборки сложных кейсов (HealthBench Hard), где современные ИИ еще отстают. Все данные и методики уже доступны в GitHub-репозитории OpenAI .
openai.com

✔️ Google запускает фонд для стартапов.

Google анонсировала AI Futures Fund — программу для поддержки ИИ-стартапов. Участники получат ранний доступ к моделям DeepMind (Gemini, Imagen и Veo). Кроме технологий, стартапы смогут консультироваться с инженерами и исследователями Google, а также получат облачные кредиты для обучения и масштабирования решений. Уже сейчас с фондом работают проекты из разных сфер: индийский Toonsutra внедряет Gemini для перевода комиксов, Viggle экспериментирует с генерацией мемов, а платформа Rooms тестирует интерактивные 3D-пространства.

Программа открыта для стартапов из регионов, где доступен Gemini. Подать заявку можно на сайте фонда. Участники смогут претендовать не только на технические ресурсы, но и на прямые инвестиции от Google.
blog.google

✔️ Поддельные ИИ-инструменты распространяют стиллер Noodlophile.

Злоумышленники активно используют популяризацию ИИ для распространения вредоносного стиллера Noodlophile, маскируя атаки под сервисы для генерации видео и изображений. Как сообщает Morphisec, фейковые страницы Luma Dreammachine Al и CapCut AI рекламируются через соцсети, собирая до 62 000 просмотров на пост. Пользователям предлагают скачать «ИИ-софт», но вместо этого загружается ZIP-архив с исполняемым exe-файлом.

Запуск файла активирует легитимный CapCut.exe, который загружает .NET-лоадер CapCutLoader. Тот, в свою очередь, запускает Python-скрипт, устанавливающий Noodlophile Stealer. Вредонос крадет пароли, данные кошельков и другую информацию, а в некоторых случаях дополняется трояном XWorm для удаленного доступа. Эксперты напоминают: атаки через ИИ-технологии стали трендом. Осторожность — лучшая защита.
thehackernews.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31
🧠 Математика, красота и истина в эпоху ИИ

Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это.

В статье исследуется, как ИИ трансформирует подходы к математике:

🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры.
🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде.
🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики".

> “Они разрушают те границы, которые я считал непреодолимыми”
> — Эндрю Грэнвилл, математик

⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»?


📌 Полный текст

#искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука
👍8🤮5🔥21🤔1
Forwarded from Machinelearning
🌟 V-Triune от MiniMax: RL для VLM.

V-Triune - фреймворк с новым методом обучения VL-моделей, через единый алгоритм подкрепления.

В отличие от традиционных методов трейна VLM, сосредоточенных на отдельных задачах вроде решения математических задач или обнаружения объектов, V-Triune обучает модели одновременно работать с рассуждениями и восприятием. RL в V-Triune действует как механизм «настройки» уже заложенных в модель возможностей, а не добавляет новые навыки.

Это достигается за счет 3 ключевых компонентов: форматирования данных на уровне выборок, вычисления наград через специализированные верификаторы и мониторинга метрик по источникам данных.

Например, динамическая награда IoU адаптирует пороги точности для обнаружения объектов — сначала стимулируя базовое понимание, а затем требуя высокой точности.


Тестирование проводилось на бенчмарке MEGA-Bench из440 задач — от анализа графиков до OCR. Экспериментальные модели Orsta (7B и 32B параметров), обученные с V-Triune, показали прирост производительности до +14,1% по сравнению с базовыми версиями.

На задачах восприятия (обнаружение объектов в COCO), улучшения достигли +12,17% для mAP@50. Для математических задач (MathVista) результаты выросли на 5%, а в OCR — на 1-2%. При этом система стабильно работала даже при обучении на смешанных данных, что косвенно подтвердило ее универсальность.

Minimax открыли (но пока не загрузили его в репозиторий) код V-Triune и модели Orsta:

🟢Orsta-32B-0326 - стабильная версия на более поздней QwenVL-2.5-32B;
🟠Orsta-32B-0321 - версия с замороженным ViT на базе QwenVL-2.5-32B-0321;
🟢Orsta-7B - на базе Qwen2.5-VL-7B-Instruct.

⚠️ В версии 0321 попытки совместного обновления визуального и языкового модулей приводили к взрыву градиентов, поэтому ViT пришлось заморозить. В 0326, благодаря исправлениям в архитектуре, RL-тренинг стал стабильнее. 0326 рекомендуется для задач, где критична точность и надежность форматов ответов.


📌Лицензирование: MIT License.


🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #RL #Framework #MiniMax
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ xAI и Telegram планируют партнерство по внедрению Grok.

По словам Павла Дурова, его платформа и компания Илона Маска xAI заключили годовое соглашение. xAI заплатит Telegram $300 млн. за интеграцию чат-бота Grok прямо в мессенджер. Помимо этого, Telegram также будет получать 50% от выручки с подписок на Grok, которые будут продаваться внутри платформы.

Илон Маск позже написал в X: "Контракт еще не подписан". Однако он не стал уточнять детали, оставив вопрос открытым. Пока что официальная позиция Telegram – сделка есть, и она принесет пользователям лучший ИИ на рынке уже этим летом.

Новость пришла на фоне важных для Telegram событий: сервис преодолел отметку в 1 млрд. активных пользователей в месяц в этом году и разместил облигации на $1.5 млрд.
Pavel Durov

✔️ Anthropic открывает бесплатный доступ к веб-поиску в Claude для всех пользователей.

Anthropic сняла ограничения с функции веб-поиска в Claude: теперь даже бесплатные пользователи смогут получать ответы на основе актуальных данных из интернета. Ранее, доступ к этой опции, которая анализирует информацию в реальном времени, был эксклюзивом для платных подписчиков. Это изменение позволит чаще обновлять знания модели и точнее решать задачи.

Параллельно стартовало тестирование голосового режима в мобильном приложении. Пользователи могут общаться с Claude в формате диалога, выбирая из 5 вариантов голоса и получать краткие текстовые сводки прошлых бесед. По умолчанию для диалогов задействована модель Sonnet 4.
support.anthropic

✔️ OpenAI тестирует вход через ChatGPT для сторонних сервисов.

OpenAI активно прорабатывает функцию "Вход через ChatGPT", позволяющую пользователям авторизовываться в сторонних приложениях через свои аккаунты ChatGPT. Компания уже собирает заявки от разработчиков, желающих интегрировать эту опцию в свои сервисы. Пилотный запуск для тестирования уже доступен в Codex CLI — инструменте для работы с ИИ в терминале. Разработчики могут подключить ChatGPT Free, Plus или Pro к своим API-аккаунтам, получая бонусные кредиты ($5 для Plus и $50 для Pro).

Это стратегический ход для расширения экосистемы. С 600 млн активных пользователей ежемесячно, "Вход через ChatGPT" может стать ключевым элементом, помогая OpenAI конкурировать с Google и Apple в сфере единого входа и онлайн-сервисов. Точные сроки публичного релиза пока неизвестны.
techcrunch

✔️ Google Photos обновляет редактор нейросетями к 10-летию сервиса.

К своему юбилею Google Photos получает мощное обновление, сфокусированное на ИИ-редактировании. Сервис, где ежемесячно редактируют 210 млн. снимков, теперь предлагает умные подсказки по улучшению кадра одним нажатием. Можно тыкнуть пальцем или обвести область — нейросеть предложит подходящий инструмент. Главные новинки — "Reimagine" и "Auto Frame", ранее доступные только на Pixel 9.

"Reimagine" меняет выбранный объект или добавляет новый по текстовому запросу через генеративный ИИ. "Auto Frame" автоматически кадрирует фото, а нейросеть дорисовывает фон. Плюс Google добавит QR-коды для альбомов, чтобы удобно собирать фото с мероприятий. Правда, обновленный редактор появится на Android в июне, а владельцам iPhone ждать до конца года.
arstechnica

✔️ Resemble AI открыли код Chatterbox — SOTA для клонирования голоса.

✔️ Яндекс открыл прием заявок на ежегодную премию Yandex ML Prize.

С 28 мая стартовал прием заявок на ежегодную премию Yandex ML Prize 2025. Эта награда — реальное признание и поддержка для тех, кто растит новые кадры ML в России. Премия существует с 2019 года как память об Илье Сегаловиче, и за шесть лет её получили уже 60 выдающихся педагогов и руководителей.

Податься могут вузовские преподаватели, ученые из исследовательских центров и руководители образовательных программ в области Сomputer Science. Победителей ждут денежные призы и полезные гранты на Yandex Cloud, которые точно пригодится в работе: делать новые курсы, организовывать хакатоны и проводить исследования вместе со студентами.

Заявки принимают до 22 июня. Само награждение, как обычно, пройдет осенью.
habr.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👎1🥰1
🎯 AI в математическом решении проблем — современные достижения и тренды

Недавние прорывы демонстрируют, как искусственный интеллект постепенно осваивает задачи, которые ранее считались пределом человеческого разума.

🎓 Прорыв от DeepMind

• AlphaProof + AlphaGeometry 2 научились решать задачи уровня Международной математической олимпиады
AI получил серебро: 4 из 6 задач IMO решены, включая сложную геометрию
• Одна из задач была решена за 19 секунд — уровень мирового финалиста

🧠 Прогресс в больших языковых моделях

• GPT-4, Qwen2‑Math, rStar‑Math достигают 80–90% точности на математических задачах (MATH, AIME)
• Используют рассуждение по цепочке (Chain-of-Thought) и поисковые деревья
• Это повышает точность и уменьшает количество логических ошибок

📐 Формальная и творческая математика

AI учится использовать proof-ассистенты (формальные доказательства)
• Метрика CreativeMath оценивает «творчество» AI — насколько оригинальны решения
• Это делает модели не просто калькуляторами, а потенциальными открывателями новых идей

📊 Что это даёт

Сфера | Возможности AI
-----|----------------------
Образование | Интерактивные помощники, обучение математике
Исследования | Генерация гипотез, автоматическое доказательство
Бизнес | Оптимизация, логистика, криптография, финтех


🧭 Куда движемся дальше

• Новый бенчмарк FrontierMath проверяет научные способности моделей
• Гибридные архитектуры: нейросети + символика + формальные системы
• Применения в науке, финансах, образовании — становятся повседневными

💬 А вы как думаете?

• Может ли AI когда-нибудь доказать теорему, которую не смог человек?
• Какие приложения AI в математике вам кажутся самыми перспективными?

Статья

#AI #Mathematics #DeepMind #LLM #FormalProof #Innovation
9👍4🤔2
🧠 Одно из величайших уравнений в истории — на грани разгадки

Испанский математик Хавьер Гомес Серрано совместно с Google DeepMind приблизился к решению уравнений Навье — Стокса — одного из семи Millennium Prize Problems, за которое обещан $1 000 000.

📌 Эти уравнения описывают поведение жидкостей и газов:
от движения воздуха и волн — до потока крови в капиллярах.

Учёные не могут доказать, существует ли гладкое решение в 3D — уже 200 лет.

🤖 Что изменилось?

• Серрано и DeepMind используют современные нейросети для численного анализа
• Команда утверждает: модель на грани открытия
• ИИ помогает выявить структуры и закономерности, которые сложно уловить вручную

🌊 Что даст решение:

• Улучшенные модели погоды и климата
• Прогнозирование цунами и турбулентности
• Прорыв в медицине: моделирование кровотока и работы сердца
• Новый фундамент в прикладной математике и физике

📌 Вывод:

Если им удастся — это будет не просто научная победа.
Это будет момент, когда ИИ помог человечеству решить задачу, с которой оно не справлялось столетиями.

#ai #математика #deepmind #наука #навиестокс

👉 Подробнее

@data_math
🔥5112👍6😨5😁2💩2🤯1
Forwarded from Machinelearning
🌟 HumanOmniV2: модель, которая понимает контекст видео.

Alibaba Group разработали HumanOmniV2, модель на базе Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ.

Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге <context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> .

Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых:

🟢«Награда за контекст» дается, если его описание полное и релевантное, причем качество этого описания оценивает другая, более мощная LLM;

🟢«Логическая награда» проверяет, что в своих рассуждениях модель действительно использовала данные из видео и аудио, а не проигнорировала их.

Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.

Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).

Тестовая модель обошла открытые аналоги на 3 бенчмарках:

🟠Daily-Omni: 58.47% (53.13% у MiniCPM-o 2.6);
🟠WorldSense: 47.1% (45.4% у Qwen2.5-Omni);
🟠IntentBench: 69.33% (64.20% у Qwen2.5-Omni).


📌Лицензирование: Apache 2.0 License.


🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #MMLM #HumanOmniV2 #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍96
This media is not supported in your browser
VIEW IN TELEGRAM
🏅 OpenAI взяли золото на Международной математической олимпиаде 2025 — самое громкое AI-событие года!

И это не была модель для математики. Просто внутренняя разработка общего назначения… случайно показала уровень золотой медали на самой престижной олимпиаде в мире.

📉 Ещё пару месяцев назад их модели были внизу рейтингов. Сейчас — вершина.
📈 Эксперименты с “test-time compute” (как в Strawberry/Q*) дали в итоге универсального reasoner'а, который думает лучше большинства людей.
💥 Шансы на победу вчера — 20%. Сегодня — уже 86%. Никто не ожидал. Даже внутри OpenAI были в шоке.

Почему это важно:
• Математика — фундамент всей науки: физика, квант, инженерия
AI, который умеет думать в числах — это новый уровень
• Самоулучшающийся ИИ → доступный PhD-тренер по математике у каждого в кармане

Добро пожаловать в эру AI, который *действительно* понимает.

#OpenAI #MathOlympiad #AI #GPT #PostLabor
💩1615🔥2🥰1🤡1
Forwarded from Machinelearning
🌟 OpenReasoning-Nemotron: набор ризонинг-моделей от NVIDIA.

OpenReasoning-Nemotron - набор LLM на архитектуре Qwen 2.5 и дистиллированных из DeepSeek-R1-0528 ( 671 млрд. параметров):

🟠OpenReasoning-Nemotron-1.5B;
🟠OpenReasoning-Nemotron-7B;
🟠OpenReasoning-Nemotron-14B;
🟢OpenReasoning-Nemotron-32B;

Семейство было обучено на 5 млн. примеров рассуждений в математике, естественных науках и программировании.

Модели показали достойные результаты pass@1 на бенчах GPQA, MMLU-PRO, AIME, HMMT и LiveCodeBench - без использования RL.

Старшая модель, 32B, выбила 96,7% по HMMT с декодированием GenSelect.


📌Лицензирование: CC-BY-4.0 License.


🟡Статья
🟡Набор моделей


@ai_machinelearning_big_data

#AI #ML #LLM #Reasoning #Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🔥2🥰1😁1
Forwarded from Machinelearning
🌟 Hierarchical Reasoning Model: иерархическая модель рассуждений, имитирующая работу мозга человека.

Hierarchical Reasoning Model, (HRM) - рекуррентная архитектура, которая черпает вдохновение в принципах работы человеческого мозга. В ее основе лежат 2 взаимозависимых рекуррентных модуля:

🟢Первый, высокоуровневый модуль (H-модуль), отвечает за медленное, абстрактное планирование, подобно тета-волнам в мозге.

🟢Второй, низкоуровневый модуль (L-модуль), занимается быстрыми и детализированными вычислениями, аналогично гамма-волнам.

Эта структура дает модели достигать вычислительной глубины, необходимой для сложных рассуждений, при этом сохраняя стабильность и эффективность во время обучения, чего так не хватает стандартным трансформерам.

🟡Взаимодействие модулей назвали "Иерархической конвергенцией".

Процесс кардинально отличается от того, что происходит в обычных рекуррентных сетях, которые склонны к преждевременной сходимости, когда их скрытое состояние быстро стабилизируется, и дальнейшие вычисления практически прекращаются. В HRM все иначе:

🟠Сначала быстрый L-модуль выполняет серию итераций, находя локальное равновесие для текущего шага задачи. Его итоговое состояние передается медленному H-модулю.

🟠H-модуль, в свою очередь, осмысливает полученный результат, выполняет один шаг собственного, более абстрактного обновления и задает совершенно новый контекст для L-модуля.

Таким образом, вычислительный путь низкоуровневого модуля перезапускается, направляя его к новой точке локального равновесия. Механизм не дает системе застрять и позволяет ей последовательно выполнять множество различных, но взаимосвязанных этапов решения, выстраивая длинные логические цепочки.

Тестовая модель HRM с 27 млн. параметров, обученная всего на 1000 примерах без какого-либо претрейна или CoT-пар, показала неожиданно высокие результаты .

На задачах, требующих глубокого поиска и перебора вариантов ( Sudoku-Extreme ) и поиск оптимального пути ( Maze 30x30 ), HRM достигла почти идеальной точности, а вот CoT-методы полностью провалились с результатом 0%.

На бенчмарке ARC-AGI-1, HRM показывает точность в 40.3%. Для сравнения, o3-mini-high показала 34.5%, а Claude 3.7 с контекстом 8K - 21.2%.

▶️ Веса моделей для самостоятельного воспроизведения тестов:

🟢ARC-AGI-2;
🟢Sudoku 9x9 Extreme (1000 examples);
🟢Maze 30x30 Hard (1000 examples);


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #HRM #SapientInc
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥6🥰2👍1🤔1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🎧 Perch 2.0 — AI, который слушает природу и спасает вымирающие виды.

DeepMind выпустили Perch 2.0 — компактную supervised-модель для биоакустики.

Без миллиардов параметров, без сложного self-supervised обучения — просто аккуратная модель, которая побила все бенчмарки и уже работает в полевых исследованиях.

🌱 Почему это важно
Звуки природы — это источник данных о биоразнообразии.
По аудиозаписям можно понять:
- какие животные живут в лесу,
- сколько их,
- размножаются ли они,
- не вытесняются ли они человеком.

Но расшифровка аудио — адский труд: в одном часе записи из тропиков десятки накладывающихся голосов.

🐦 Что умеет Perch 2.0
Perch 2.0 — универсальный эмбеддер для звуков животных.
Берёт 5 секунд аудио → выдаёт вектор, с которым можно:
- находить похожие записи,
- кластеризовать звуки,
- обучать простой классификатор для новых видов (few-shot).

Работает без GPU и без дообучения.

🛠 Архитектура
- Основa: EfficientNet-B3 (12M параметров).
- Три головы:
1. Классификация ~15k видов.
2. Прототипная — создаёт семантические логиты для distillation.
3. Source prediction — угадывает источник записи.
- Обучение в два шага:
1. Прототипная голова учится сама.
2. Её логиты становятся soft-label’ами для основной (**self-distillation**).

📊 Результаты
- SOTA на BirdSet и BEANS (ROC-AUC, mAP).
- Отличная переносимость на морских данных (киты, дельфины), которых почти не было в тренировке.
- Всё это — без fine-tuning, только фиксированные эмбеддинги.

Главный вывод
Perch 2.0 показывает, что:
🟢 качественная разметка,
🟢 простая архитектура,
🟢 чёткая постановка задачи
могут быть важнее, чем «бесконечные параметры» и сложные LLM.

🌍 Что это меняет
- Биологам — быстрый анализ джунглей Бразилии или рифов без написания своих моделей.
- ML-инженерам — наглядный пример, как обучать компактные сети без потери качества.
- Исследователям — напоминание: не всегда нужен GPT-4, чтобы сделать полезный инструмент.

🟠Github: https://github.com/google-research/perch-hoplite
🟠Подробнее: https://deepmind.google/discover/blog/how-ai-is-helping-advance-the-science-of-bioacoustics-to-save-endangered-species/
🟠Статья: http://arxiv.org/abs/2508.04665

@ai_machinelearning_big_data


#DeepMind #AI #Bioacoustics #MachineLearning #Perch #Ecology
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍6