289K subscribers
3.97K photos
695 videos
17 files
4.56K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
加入频道
🌟 Distill-Any-Depth: метод оценки глубины сцены по одному изображению.

Distill-Any-Depth - метод обучения моделей монокулярной оценки глубины, который сочетает кросс-контекстную дистилляцию и мульти-учительский подход для точного определения расстояния до объектов на RGB-изображении. Он предназначен для обучения моделей (например, DPT, MiDaS или DepthAnythingv2), которые учатся на псевдо-метках, сгенерированных учительскими моделями (Genpercept, DepthAnythingv2).

Метод не просто улучшает существующие алгоритмы, но и задает новый стандарт в области определения глубины. Методика может применяться в сфере автономного транспорта и AR-решений. Она может ускорить создание точных 3D-карт для навигации и улучшить реалистичность виртуальных миров за счет детализированного анализа пространства. При этом, обучение CV-моделей с Distill-Any-Depth довольно энергоэффективно — достаточно одной NVIDIA V100.

Основа Distill-Any-Depth - кросс-контекстная дистилляция, объединяющая 2 сценария:

🟠Shared-Context Distillation — модель-учитель и модель-ученик обучаются на одинаковых фрагментах изображения.

🟠Local-Global Distillation — модель-учитель анализирует локальные фрагменты, а модель-ученик предсказывает глубину для всего изображения, отвечая за глобальную согласованность сцены.

Экспериментальная модель обучалась на 50 тыс. изображений из SA-1B с разрешением 560×560. Использовались псевдо-метки от Genpercept (диффузионная модель) и DepthAnythingv2 (DINOv2). В рамках мульти-учительского подхода на каждой итерации случайно выбирался один учитель.

На тестах DIODE и ETH3D метод сократил значение AbsRel на 9.6–20% по сравнению с базовой дистилляцией. Например, при обучении модели-ученика DPT с учителями Genpercept и DepthAnythingv2 AbsRel на ETH3D составил 0.065 против 0.096 у Genpercept.

На бенчмарках NYUv2, KITTI, ScanNet модель достигла SOTA: AbsRel 0.043 (NYUv2), 0.070 (KITTI), 0.042 (ScanNet). В сравнении с DepthAnything v2 (AbsRel: 0.045 на NYUv2) и Marigold (0.055) Distill-Any-Depth показал более высокую детализацию и точность относительной глубины.

▶️В открытом доступе 3 модели, обученные с Distill-Any-Depth:

🟢Distill-Any-Depth-Multi-Teacher-Small - 24.8М параметров

🟢Distill-Any-Depth-Multi-Teacher-Base - 95.5М параметров

🟢Distill-Any-Depth-Multi-Teacher-Large - 335.3М параметров


▶️Локальная установка и инференс в Gradio:

# Create Conda env 
conda create -n distill-any-depth -y python=3.10
conda activate distill-any-depth

# Clone Repo
git clone https://github.com/rmurai0610/MASt3R-SLAM.git --recursive
cd MASt3R-SLAM/

# Install dependencies
pip install -r requirements.txt
pip install -e .

# If use hf_hub_download, you can use the following code
checkpoint_path = hf_hub_download(repo_id=f"xingyang1/Distill-Any-Depth", filename=f"large/model.safetensors", repo_type="model")

# Launch Gradio demo
python app.py


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🟡Набор моделей
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Depth #DIstillAnyDepth
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥2118🥰2
✔️ В сеть утекли спецификации RTX 5060 Ti и 5050.

NVIDIA RTX 5060 Ti будет использовать чип GB206-300, иметь 4608 ядер CUDA, две конфигурации GDDR7 объемом 8 ГБ и 16 ГБ, использовать 128 бит и энергопотребление в 180 Вт.

RTX 5050 построена на чипе GB207-300 с 2560 ядрами CUDA, 8 ГБ видеопамяти GDDR6, 128-битную разрядность и энергопотреблением 130 Вт. Обе видеокарты используют конструкцию печатной платы PG152.

По слухам, RTX 5060 Ti и RTX 5050 выйдут в апреле-мае, а RTX 5050 должна составить конкуренцию Intel Battlemage Arc B580.
videocardz.com

✔️ Квантовый интернет стал немного ближе к реальности.

Ученые при момощи ИИ обнаружили более простой способ формирования квантовой запутанности между субатомными частицами. Это открытие потенциально облегчит разработку квантовых коммуникационных технологий.
Исследование, опубликованное в Physical Review Letters, описывает, как разработанный ИИ-инструмент PyTheus предложил принципиально новый метод, основанный на неразличимости путей фотонов.

Это открытие упрощает процесс формирования квантовой запутанности, что в перспективе может сделать квантовые сети для безопасной передачи сообщений более осуществимыми. Хотя практическое масштабирование технологии еще предстоит оценить, исследование убедительно демонстрирует потенциал AI как инструмента для научных открытий в физике.
space.com

✔️ Similarweb: ChatGPT посещают почти 4 миллиарда человек в месяц, но рост замедляется.

Февраль 2025 года стал для ChatGPT рекордным по числу посетителей – 3,905 миллиарда, но несмотря на это, месячный прирост составил скромные 1,44%, что указывает на существенное замедление динамики.

В годовом исчислении рост остается впечатляющим - 137% по сравнению с февралем 2024 года. Эти показатели позволили ChatGPT занять 5 место среди самых посещаемых десктопных веб-сайтов в мире и 7 место с учетом мобильного трафика. Даже с таким внушительным количество пользователей, ChatGPT пока не может сравниться по объемам трафика с Google.
Similarweb в X (Twitter)

✔️ Китайские университеты расширяют прием студентов по ИИ направлениям.

Несколько ведущих университетов Китая заявили о планах по увеличению набора студентов. Данная инициатива направлена на приоритетное развитие кадров в сферах, имеющих "национальное стратегическое значение", одна из них - искусственный интеллект.

Решение последовало за запуском университетских курсов по ИИ, основанных на разработках стартапа DeepSeek, чьи успехи сравнивают со "спутником" в технологическом прорыве. Peking University добавит 150 мест в 2025 году, Renmin University - более 100, Shanghai Jiao Tong University также увеличит прием на 150 мест в специализациях по ИИ и новых технологиях. Эти меры тесно связаны со стремлением КНР стать "мощной образовательной державой".
reuters.com

✔️ Sony Music ведет масштабную борьбу с дипфейками.

Компания Sony Music отчиталась о удалении более 75 тысяч сгенерированных искусственным интеллектом материалов, в основном это подделки записей известных исполнителей. Этот объем выявленных фейков, по мнению музыкальных руководителей, является лишь вершиной айсберга.

Sony опасается, что планируемое ослабление законодательства об авторском праве в Великобритании усугубит проблему и нанесет прямой коммерческий ущерб артистам. В своем обращении к правительству Великобритании компания подчеркнула, что существующая система лицензирования интеллектуальной собственности для обучения ИИ является предпочтительной и ведет с рядом компаний переговоры.
ft.com

✔️ У китайцев вышел новый DeepSeek — супернейросеть Kimi k1.5, которая теперь доступна для всех (если у вас есть аккаунт Google).
• По бенчмаркам AIME и MATH 500 она с лёгкостью обходит OpenAI o1, предлагая сразу возможности поиска и «глубокого размышления».
•Можно загрузить до 50 файлов, а контекстное окно на 200 тысяч токенов способно обработать огромный объём данных, выдавая подробный ответ или краткий вывод.
kimi.ai

✔️ANUS (Autonomous Networked Utility System) — опенсорсную версию популярного Manus, который клонировал самого себя

GItHub

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🤣23🔥117
🌟 EuroBERT: энкодеры нового поколения.

Исследовательская группа под патронажем Centrale Supélec (Университет Париж-Сакле) выпустила в открытый доступ EuroBERT — семейство мультиязычных энкодеров, обученных на 5 трлн. токенов из 15 языков, включая русский.

EuroBERT сочетает инновационную архитектуру с поддержкой контекста до 8192 токенов, что делает это семейство идеальным для анализа документов, поиска информации, классификации, регрессии последовательности, оценки качества, оценки резюме и задач, связанных с программированием, решением математических задачи.

В отличие от предшественников (XLM-RoBERTa и mGTE), EuroBERT объединил GQA, RoPE и среднеквадратичную нормализацию, чтобы достичь беспрецедентной эффективности производительности даже в сложных задачах. Второе немаловажное преимущество EuroBERT - в обучение помимо текстовых данных были включены примеры кода и решения математических задач.

Самая младшая модель EuroBERT с 210 млн. параметров показала рекордные результаты: в тесте MIRACL по многоязычному поиску её точность достигла 95%, а в классификации отзывов (AmazonReviews) — 64,5%. Особенно выделяется умение работать с кодом и математикой — в бенчмарках CodeSearchNet и MathShepherd EuroBERT опережает аналоги на 10–15%.

▶️Состав релиза:

🟢EuroBERT-210М
🟢EuroBERT-610М
🟢EuroBERT-2.1В

⚠️ EuroBERT можно использовать непосредственно с transformers, начиная с версии 4.48.0

⚠️ Для достижения максимальной эффективности, разработчики рекомендуют запускать EuroBERT с Flash Attention 2

▶️ Пример инференса:

from transformers import AutoTokenizer, AutoModelForMaskedLM

model_id = "EuroBERT/EuroBERT-210m"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForMaskedLM.from_pretrained(model_id, trust_remote_code=True)

text = "The capital of France is <|mask|>."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)

# To get predictions for the mask:
masked_index = inputs["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predicted_token_id = outputs.logits[0, masked_index].argmax(axis=-1)
predicted_token = tokenizer.decode(predicted_token_id)
print("Predicted token:", predicted_token)
# Predicted token: Paris


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Коллекция на HF
🟡Arxiv
🖥GitHub (Скоро)


@ai_machinelearning_big_data

#AI #ML #Encoder #EuroBERT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥2617🥰2🤓2😁1
✔️ OpenAI презентовала новые инструменты для разработчиков.

OpenAI анонсировала 3 новых инструмента для разработчиков, поддерживаемых в API и доступных через новый SDK. Среди новинок – WebSearch Tool, основанный на дообученной модели GPT-4o/GPT-4o-mini, для поиска информации в интернете. FileSearch Tool - инструмент поиска по документам с возможностью фильтрации по тегам, аналогично функциональности в Ассистентах. Третий - Computer Use (Operator), использующий ту же GPT-4o, предоставляющий доступ к локальному компьютеру пользователя.

Опубликованы и тарифы: Computer Use несколько дороже обычной GPT-4o, а поиск по файлам тарифицируется за запросы ( 2.5 долл. за 1000) и объем загруженных данных
(10 центов за гигабайт)
OpenAI на Youtube

✔️ TypeScript 7.0 будет в 10 раз быстрее.

Microsoft анонсировала радикальное улучшение производительности TypeScript за счет новой нативной реализации компилятора, написанной на Go. Он сократит время сборки проектов, ускорит загрузку редакторов и снизит потребление памяти. Уже сейчас тесты показывают: проверка кода VS Code занимает не 77,8 секунд, а всего 7,5.

Выпуск TypeScript 7.0 запланирован на конец 2025 года, но тестовую версию уже можно опробовать в GitHub-репозитории. Пока команда сохранит поддержку TypeScript 6.x для проектов, зависящих от старых API.

Подробности — в AMA-сессии Discord 13 марта, где авторы ответят на вопросы о будущем экосистемы.
devblogs.microsoft.com

✔️ Agora выпустила набор Conversational AI для IoT-устройств.

Agora, мировой лидер в области решений для взаимодействия в реальном времени, анонсировала запуск ConvoAI Device Kit — инструментария для разработки голосового ИИ в IoT-устройствах. Совместно с производителем чипов Beken и создателем роботов Robopoet Agora предлагает технологию, которая превращает игрушки, гаджеты и «умные» устройства в эмоционально отзывчивых собеседников.

ConvoAI Device Kit объединяет чипы Beken с платформой Agora и обеспечивает распознавание речи с минимальной задержкой, адаптивные диалоги и обработку эмоций.
Решение подходит для образовательных игрушек, «умных» домов и носимых гаджетов.
agora.io

✔️ Supermicro запускает edge-серверы для AI с процессорами Intel Xeon 6.

Supermicro анонсировала линейку компактных серверов, оптимизированных для ИИ. Новые системы оснащены процессорами Intel Xeon 6 с P-ядрами (до 144 вычислительных ядер, увеличенная на 40% пропускная способность памяти и улучшенная энергоэффективность). Новая линейка позволит обрабатывать данные в реальном времени непосредственно на месте их генерации, что критично для телекома, медицины и промышленности.

Серверы поддерживают до 512 ГБ DDR5, имеют порты 100 GbE и слот PCIe 5.0 для GPU, что делает их идеальными для медиа-задач и Edge AI. Отдельного представлены системы с процессорами Intel Core Ultra 15-го поколения — они предназначены для IoT и AI-инференса на edge-периферии (до 24 ядер и NPU).
supermicro.com

✔️ Cerebras развернёт 6 дата-центров в США и Европе.

Cerebras Systems, лидер в области инференса генеративного ИИ, объявила о запуске 6 новых дата-центров. Объекты в США, Канаде и Европе, оснащённые тысячами систем CS-3 на базе Wafer-Scale Engines, обеспечат обработку свыше 40 млн токенов Llama 70B в секунду, что сделает Cerebras крупнейшим поставщиком облачных решений для ИИ.

Проект увеличит совокупную мощность компании в 20 раз, удовлетворив растущий спрос клиентов — от Mistral до гигантов вроде HuggingFace. Особое внимание уделено надёжности: дата-центр в Оклахома-Сити, защищённый от торнадо и сейсмической активности, начнёт работу в июне 2025 года.
cerebras.ai

✔️ GPUStack — менеджер кластеров GPU с открытым исходным кодом для запуска и масштабирования AI моделей.Позволяет организовать эффективное распределение ресурсов для инференса AI моделей, упрощает развертывание масштабируемых решений и обеспечивает гибкую интеграцию с существующими сервисами и приложениями.
Github

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5718🔥13
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ Gemma 3 — свежий релиз, который значительно расширяет возможности открытых моделей и упрощает их развёртывание:

🟢 27B модель: Достигла рейтинга ELO 1338 и при этом умещается на одном H100.
🟢 Поддержка vision: Теперь модель способна обрабатывать смешанный контент, включая изображения, видео и текст.
🟢Доступны версии на 1В, 4В, 12В, 27В в базовых и instruct версиях
🟢 Расширенное окно контекста: Модель может работать с контекстом до 128k токенов
🟢 Широкая языковая поддержка: Поддерживается 140 языков
🟢 Встроенные возможности для реализации агентных сценариев и интеграции с внешними инструментами.

Попробуйте модель по ссылке: Gemma 3 27B.

🟡Пост: https://blog.google/technology/developers/gemma-3/

🟡Попробовать: aistudio.google.com/prompts/new_chat?model=gemma3-27b

🟡Tech report: https://storage.googleapis.com/deepmind-media/gemma/Gemma3Report.pdf

🟡Видео https://youtube.com/watch?v=UU13FN2Xpyw

🟡HF: https://huggingface.co/blog/gemma3

@ai_machinelearning_big_data

#gemma #ai #ml #release #google #
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👍2213
📌Awesome CursorRules: репозиторий с рецептами Cursor AI.

Awesome CursorRules — коллекция файлов-рецептов .cursorrules для тонкой настройки поведения Cursor AI. Автор репозитория собрал десятки шаблонов, адаптирующих генерацию кода под конкретные проекты: от мобильных приложений до блокчейн-решений.

Главная «фишка» .cursorrules — гибкость. Разработчики могут прописать правила, которые сделают подсказки ИИ более релевантными: например, учесть стиль кода команды или архитектурные особенности проекта. Это не только ускоряет работу, но и снижает риск ошибок.

Коллекция включает практически все сферы разработки: фронтенд (Angular, NextJS, Qwik, React, Solid, Svelte, Vue), бэкенд (Deno, Elixir, ES, Go, Java, Lavarel, NodeJS, Python, TypeScript, WordPress), мобильную разработку (React Native, SwiftUI, TypeScript, Android, Flutter) и специфические задачи — интеграцию с Kubernetes или оптимизацию под SOLID-принципы.

Для новичков есть пошаговые инструкции: достаточно скопировать файл в проект или установить расширение для VS Code.

Судя по отзывам, Awesome CursorRules уже стал мастхэв для тех, кто хочет выжать максимум из Cursor AI.


🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Github #Awesome #CursorAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
52🔥30👍20🤨6
✔️ TSMC предлагает ИТ-гигантам объединиться вокруг производственных мощностей Intel.

TSMC обратилась к Nvidia, AMD и Broadcom с предложением войти в совместное предприятие, целью которого станет управление производственными мощностями Intel. Как сообщают источники, TSMC планирует сохранить за собой менее 50% акций в данном предприятии. Аналогичное предложение, по некоторым данным, было направлено и компании Qualcomm. Эти переговоры разворачиваются на фоне обращения администрации президента США к TSMC с просьбой оказать содействие испытывающей трудности Intel. Известно, что переговоры по Intel находятся на ранней стадии, и TSMC заинтересована в привлечении нескольких компаний к участию в этом проекте.
zaobao.com.sg

✔️ ИИ от Sakana AI успешно прошел научное рецензирование.

Проект Scientist-v2, разработка Sakana AI, смогла создать научную работу, которая успешно прошла процесс рецензирования на одном из воркшопов Международной конференции ICLR. Это стало первым случаем, когда полностью сгенерированное исследование прошло стандартную процедуру оценки. Представленная работа была посвящена методам регуляризации нейронных сетей и, как ни странно, сообщала об отрицательных результатах.

Несмотря на то, что средняя оценка работы составила 6.33, что превысило порог принятия воркшопа, согласно предварительной договоренности, работа была отозвана, поскольку в научном сообществе пока отсутствуют устоявшиеся нормы для сгенерированных работ.
sakana.ai

✔️ Google DeepMind выводит ИИ в физический мир с Gemini Robotics.

Google DeepMind представила новейшую разработку – Gemini Robotics, модель на базе Gemini 2.0, способную наделить роботов способностью к "телесному" мышлению. Эта VLA (Vision-Language-Action) модель способна самостоятельно управлять роботами, открывая новые возможности в их применении.

Наряду с ней представлена Gemini Robotics-ER, модель с углубленным пространственным пониманием, позволяющая робототехникам использовать возможности Gemini в своих проектах. Обе модели демонстрируют интерактивность и ловкость, позволяя роботам адаптироваться к различным ситуациям, взаимодействовать с людьми и выполнять сложные задачи. Google DeepMind тестирует Gemini Robotics-ER с несколькими доверенными партнерами.
deepmind.google

✔️ Doubao (ByteDance) опубликовала технические детали модели генерации изображений Seedream 2.0.

Команда Doubao официально представила технический отчет о своей модели генерации изображений Seedream 2.0, впервые раскрыв детали процесса разработки, начиная со сбора данных и заканчивая постобработкой с использованием RLHF.

В отчете отмечаются улучшения в понимании китайского и английского языков, отрисовке текста, достижении высокого уровня эстетики и разрешения генераций. Seedream 2.0 была запущена еще в начале декабря 2024 года в приложениях Doubao и Jimeng, ей воспользовались сотни миллионов пользователей и она стала любимым инструментом для многих профессиональных дизайнеров в Китае. По сравнению с Ideogram 2.0, Midjourney V6.1 и Flux 1.1 Pro, Seedream 2.0 лучше справляется с текстом и лучше понимает китайскую культуру. Модель поддерживает запросы на китайском и английском языках.
team.doubao.com

✔️ Испания вводит крупные штрафы за отсутствие маркировки контента, созданного ИИ.

Испанское правительство одобрило законопроект, предусматривающий введение внушительных штрафов для компаний, которые используют сгенерированный контент без соответствующей маркировки. Мера направлена на борьбу с распространением "дипфейков".

Несоблюдение требований по маркировке будет классифицироваться как "серьезное правонарушение", что может повлечь за собой штрафы до 35 млн. евро или 7% от годового оборота компании-гарушителя. Новый регулирующий орган AESIA будет отвечать за обеспечение соблюдения новых правил.
reuters.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🔥1813
📌Опенсорс-модели T-Lite и T-Pro: процесс обучения моделей от подготовки данных до финальных экспериментов.

В открытом доступе представлено ограниченное количество LLM. Как правило, крупные игроки публикуют модели с ограничивающими лицензиями или выкладывают легкие версии своих флагманских разработок. В этих условиях русскоязычные модели T-Lite и T-Pro (на 7 млрд. и 32 млрд. параметров соответственно) от Т-Банка поддерживают все опенсорс-сообщество. Компания выложила эти LLM с открытой лицензией в конце 2024 года.

При обучении этих моделей использовался гибридный подход Continual Pretraining, который сочетает элементы Pre-Training и Post-Training. При этом вместо обучения с нуля за основу была взята сильная открытая модель — Qwen2.5. Это позволило значительно снизить затраты и ускорить сам процесс обучения, сохранив преимущества глубокой адаптации.

Процесс обучения LLM можно условно разделить на шесть стадий:
выбор оптимальной базовой модели, опциональный этап по расширению токенизатора, continual pretraining stage 1, continual pretraining stage 2 с добавлением инструктивных данных, SFT и DPO.

Основной идеей остается дообучение сильных открытых моделей, что приводит к меньшим затратам ресурсов на обучение по сравнению с созданием моделей лидерами индустрии.

Какую именно открытую модель необходимо выбрать, как происходит дообучение, почему важны кодовые датасеты и связь с навыками рассуждения подробно рассказывается в статье от MLE по разработке фундаментальных моделей.

🟡Статья

@ai_machinelearning_big_data

#AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
40👍18🔥10😍3😁1🤓1
Дайджест событий из мира диффузионок за 2 года от экспертов ШАДа

✔️ Simple Diffusion улучшила качество генерации изображений
Модель Simple Diffusion от Google Brain позволила генерировать изображения высокого разрешения без дополнительных моделей Super Resolution.

✔️ SDXL подняла планку для opensource-моделей
SDXL стала первой крупной opensource-моделью с 2,8 миллиардами параметров. Это повысило четкость изображений и улучшило контроль генерации с помощью механизма Micro-Conditioning.

✔️ EMU фокусировалась на качестве обучающих данных
Разработчики модели EMU разделили обучение на стадии pre-training и supervised fine-tuning, акцентируя внимание на качестве дообучающего датасета. При таком подходе получается высокий результат при минимальном сборе данных.

✔️ PixArt-α и эффективность трансформеров
Модель PixArt-α от Huawei показала высокую эффективность при обучении на малом количестве данных с использованием трансформерной архитектуры. Это открыло новые возможности для создания мощных генеративных моделей с меньшими затратами.

✔️ SANA от Nvidia обеспечила качество в 4K
Модель SANA генерировала изображения в разрешении 4K без дополнительных Super Resolution решений. Использование глубокого автокодировщика с масштабом 32 ускорило процесс генерации и улучшило качество изображений.

🟡 Статья

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍4014🔥4
🌟 MM-EUREKA: Мультимодальный ризонинг.

MM-Eureka — разработка Шанхайской лаборатории ИИ, которая совершила шаг вперед в решении задач, требующих анализа изображений и текста. В отличие от рядовых VLM, эта модель сочетает RL с мультимодальным мышлением, имитируя человеческую способность, схожую с «моментами озарения». Авторы заявляют, что MM-Eureka не только обладает повышенной точностью ответов, но и учится перепроверять визуальные данные с помошью рассуждений.

MM-Eureka суперэффективна: даже при обучении на 0,05% данных от аналогов, модель превзошла их в тестах на математическую логику и анализ графиков. Например, в задачах уровня школьной программы она показала рост точности на 8,2%. При этом тестовая модель, не имея явных инструкций, научилась «переосмысливать» изображения — заново оценивать геометрические схемы для поиска ошибок.

В основе MM-Eureka - модели InternVL2.5 с параметрами 8 и 38 млрд. Архитектура объединяет механизмы внимания для анализа визуальных паттернов и языковые слои для генерации ответов.

Обучение строилось на алгоритме RLOO (REINFORCE Leave-One-Out), который снижает шум в оценках преимуществ, и PPO-clip, предотвращающем резкие изменения политики. Авторы отказались от ограничений KL-дивергенции, чтобы не сдерживать «творческий» поиск решений. Функция вознаграждения включала проверку точности ответов через Math-Verify и соблюдение структуры вывода, чтобы усилить логическую строгость.

▶️В релиз вошли 2 модели, датасет и код для самостоятельных изысканий в обучении:

🟢MM-Eureka-8B
🟢MM-Eureka-Zero-38B
🟠MM-Eureka-Dataset


📌Лицензирование: Apache 2.0 License.


🟡Набор моделей
🟡Техотчет
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Reasoning #MMEUREKA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4816👍13🥰4🤓1