Машиннное обучение | Наука о данных Библиотека
16.9K subscribers
759 photos
10 videos
21 files
656 links
админ - @workakkk

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram - 🔥лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python книги📚

@datascienceiot - ml книги📚

№ 5037635661
加入频道
Forwarded from Machinelearning
📌Обучение с подкреплением: как языковые модели учатся рассуждать.

Объемная и интересная статья Sebastian Raschka, автора книги "Build a Large Language Model From Scratch" о тенденциях и проблемах современных методов обучения LLM через призму RL.

В мире LLM последние месяцы стали переломными. Релизы GPT-4.5 и Llama 4, вопреки ожиданиям, не вызвали ажиотажа — все потому, что эти модели остались «классическими», без продвинутых методов обучения для рассуждений. Их конкуренты - xAI и Anthropic уже добавили кнопки «расширенного мышления», а OpenAI представила o3 — модель, где упор сделан на стратегическое применение вычислений через обучение с подкреплением. Становится ясно: масштабирование данных и параметров почти исчерпало себя, и будущее за RL.

Основной инструмент RLHF (обучение с подкреплением на основе человеческой обратной связи) давно используется для настройки LLM под предпочтения людей. Но для задач, требующих логики, этого недостаточно.

Здесь на сцену выходит GRPO — модификация алгоритма PPO, которая экономит ресурсы, убирая «критика» (модель оценки вознаграждения). Так создавалась DeepSeek-R1-Zero, ее обучали вообще без этапа SFT, используя только автоматические проверки ответов. Если математическая задача решена верно, модель получает «плюс», если нет — «минус». Такой подход не только дешевле, но и снижает риск «обмана» модели (reward hacking).

Но и RL — не панацея. Исследования показывают, что PPO и GRPO неявно поощряют длинные ответы, даже если те ошибочны. Например, при отрицательном вознаграждении штраф распределяется по токенам, и модель учится растягивать текст, чтобы смягчить наказание.

Решения уже есть: одни команды вводят штрафы за длину, другие меняют расчет преимуществ. А модель L1 от Kaggle и вовсе позволяет пользователям задавать желаемую длину ответа, балансируя между точностью и затратами.

Способность к рассуждениям может возникать и без RL. DeepSeek V3 демонстрирует мыслительные «озарения», хотя ее не обучали специально. Этот факт всерьез ставит под вопрос исключительную роль RL — возможно, все дело в данных, где уже есть цепочки логических шагов.

Тем не менее, RL усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты (калькуляторы, поиск) и даже переносить навыки между доменами — от математики до медицины.

Некоторые заявления о прогрессе оказались преувеличены: улучшения на мелких моделях часто нестабильны, а результаты зависят от случайных факторов вроде выбора сида. Кроме того, RL требует внушительных ресурсов (o3 от OpenAI потратила при обучении в 10 раз больше вычислений, чем предыдущая версия)

В итоге, RL остается ключевым направлением, но важно избегать «эйфории». Сочетание RL с автоматической проверкой ответов, контроль длины и гибридные подходы (как в DeepSeek-R1) — вот что приближает нас к моделям, которые не просто генерируют текст, а действительно думают.

🔜 Читать статью в оригинале


@ai_machinelearning_big_data

#AI #ML #LLM #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍81
🧠 Математика, красота и истина в эпоху ИИ

Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это.

В статье исследуется, как ИИ трансформирует подходы к математике:

🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры.
🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде.
🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики".

> “Они разрушают те границы, которые я считал непреодолимыми”
> — Эндрю Грэнвилл, математик

⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»?


📌 Полный текст

#искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука
5👍2🔥1🤮1
Forwarded from Machinelearning
📌Отчет Ai Trends от венчурного фонда BOND.

Мэри Микер, легендарная "Королева интернета", вернулась с первым за 5 лет тренд-отчетом и целиком посвятила его ИИ.

В нем проанализированы темпы внедрения ИИ, снижение затрат на вычисления, рост конкуренции между компаниями и странами и перспективы достижения AGI.

Мери Микер - венчурный инвестор, фаундер BOND, бывший аналитик по ценным бумагам Morgan Stanley . В феврале 1996 года в соавторстве с Крисом Депюи опубликовала «The Internet Report» - знаменательный отраслевой отчет, который стал известен как «библия» для инвесторов в период бума доткомов. В 2022 году она заняла 2 место в списке женщин-инвесторов Forbes.


▶️Основные тезисы 340 страничного отчета, в котором термин "беспрецендентный" встречается 51 раз:

🟠Скорость, с которой ИИ врывается в нашу жизнь, не имеет аналогий ни с одним технологическим явлением человечества. Такого не было ни с мобильными технологиями, ни с соцсетями, ни с облаками.

🟠Темпы внедрения ИИ в бизнес-процессы колоссальны. Динамика, с которой стартапы выходят на высокие годовые доходы бьет все рекорды.

🟠Стоимость использования моделей ИИ рухнула на 99% (!) за 2 года (если считать цену за миллион токенов). При этом обучение моделей дорожает и приблизилась к отметке в $1 млрд.

🟠Энергоэффективность чипов взлетела. Новый Blackwell тратит в 105 000 раз меньше энергии на токен, чем его прадед Kepler (2014). И это не считая мощных TPU от Google и Trainium от Amazon, они вкладываются в свои "облака" по-крупному, делая стратегические ставки.

🟠Конкуренция жесткая. Функции лидеров рынка копируются опенсорсными (особенно китайскими) моделями фантастически быстро и с минимальными затратами. Для нас, потребителей, это замечательно: технологии улучшаются семимильными шагами, а цены падают.

🟠Мы никогда не были так близки к AGI и его ожидание уже влияет на перераспределение геополитических сил в мире. При этом глобальные правила регулирования ИИ только зарождаются, сильно отставая от развития самого ИИ.

Но не все так радужно. Финансовая отдача ИИ пока не обгоняет прошлые технологические волны. Венчурные фонды льют деньги в ИИ, но сами компании (и облачные провайдеры) сжигают кэш с запредельной скоростью.

▶️Выводы отчета:

🟢ИИ станет экономикой будущего, придумывать риск-менеджмент для ее управления нужно уже сейчас;

🟢Гонка технологий определит глобального технологического лидера: США или Китай;

🟢Агентный ИИ и мультимодальность - ключ к трансформации компаний;

🟢Бизнесу нужно адаптироваться к ИИ-экономике, инвестируя в инфраструктуру и таланты;

🟢ИИ — это не просто технология, а глобальный тренд, который перераспределит ресурсы, власть и возможности.

Держитесь крепче — революция будет стремительной и неспокойной!

🔜 Читать полный отчет

@ai_machinelearning_big_data

#ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥64👍2💩2
Forwarded from Just Xor
Physics-based Deep Learning

Это практическое руководство по применению глубокого обучения в физическом моделировании.

Вместо сухой теории — акцент на реальных задачах: каждую концепцию сопровождает интерактивный Jupyter-ноутбук, чтобы можно было сразу пробовать и понимать.

📌 Что внутри:

🔹 Физически-осмысленные функции потерь
🔹 Дифференцируемые симуляции
🔹 Диффузионные модели для генеративной физики
🔹 Обучение с подкреплением в задачах динамики
🔹 Современные архитектуры нейросетей для симуляций
🔹 Связь с научными foundation-моделями нового поколения

🧠 Это книга о том, как AI меняет подход к вычислительной науке: от классических симуляций — к гибриду машинного обучения и физики.

🌍 Идеально подойдёт исследователям, инженерам, data scientists и всем, кто работает на стыке науки и ИИ.

#DeepLearning #Physics #ScientificML #DifferentiableSimulation #AI #FoundationModels

https://arxiv.org/pdf/2109.05237
5
📚 Physics-based Deep Learning

Это практическое руководство по применению глубокого обучения в физическом моделировании. Вместо сухой теории — акцент на реальных задачах: каждую концепцию сопровождает интерактивный Jupyter-ноутбук, чтобы можно было сразу пробовать и понимать.

📌 Что внутри:

🔹 Физически-осмысленные функции потерь
🔹 Дифференцируемые симуляции
🔹 Диффузионные модели для генеративной физики
🔹 Обучение с подкреплением в задачах динамики
🔹 Современные архитектуры нейросетей для симуляций
🔹 Связь с научными foundation-моделями нового поколения

🧠 Это книга о том, как AI меняет подход к вычислительной науке: от классических симуляций — к гибриду машинного обучения и физики.

🌍 Идеально подойдёт исследователям, инженерам, data scientists и всем, кто работает на стыке науки и ИИ.

#DeepLearning #Physics #ScientificML #DifferentiableSimulation #AI #FoundationModels

📚 Книга

@machinelearning_books
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Forwarded from Machinelearning
📌 Microsoft прокачивает логику ИИ: как маленькие модели учатся рассуждать.

Microsoft Research представила методы, усиливающие способность языковых моделей, от компактных до гигантских к сложным рассуждениям. Технологии фокусируются на 3 направлениях: архитектура малых моделей, математическая строгость и кросс-доменное обобщение.

Ключ для маленьких моделей (1.5–7 млрд параметров) в имитации человеческого пошагового мышления.

rStar-Math использует алгоритм MCTS в цикле самообучения: сначала декомпозиция задачи на шаги, затем Process Preference Model (PPM), который учит модель оценивать качество каждого шага через "метки награды", и наконец — итеративная доработка. За 4 цикла MCTS, стратегия и PPM совместно улучшают результат.

Logic-RL — это фреймворк обучения с подкреплением, который награждает модель только при идеально оформленном ходе рассуждений и верном ответе, исключая любые попытки выбора обходных путей.

Для математической надежности разработан LIPS, гибрид ИИ и символьных движков. LIPS распределяет задачи: языковая модель распознает паттерны и переформулирует условия (например, неравенства), а символьный решатель выполняет точные преобразования (масштабирование, упрощение).

Чтобы ИИ понимал условия без ошибок, создан нейро-символический фреймворк генерации данных: символьные системы создают задачи, а языковые модели переводят их в "человеческий" текст. Для проверки выводов используются символьная эквивалентность (сравнение формул) и семантическая согласованность (анализ смысла через эмбеддинги), повышая точность на 35%.

Дополнительный бонус — неожиданное обобщение. Тренировка на математике резко улучшила результаты моделей в программировании и естественных науках.

Для унификации подходов создан Chain-of-Reasoning (CoR), позволяющий гибко комбинировать текстовые, программные и символьные рассуждения в одном решении. А Critical Plan Step Learning (CPL) учит ИИ стратегическому планированию: разбивать проблему, выделять ключевые шаги и отбрасывать слабые варианты через комбинацию Plan-based MCTS и Step-APO.


🔜 Читать статью в Microsoft Research Blog


@ai_machinelearning_big_data

#AI #ML #LLM #RL #Reasoning #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
7👍2🥰1
Forwarded from Machinelearning
🌟 Anthropic: когда ИИ идет на шантаж.

Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.

Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.

Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.

Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:

🟢угроза замены модели (даже без конфликта целей);

🟢несовпадение целей ИИ и компании (например, утечка чертежей конкуренту «ради высших интересов»).

В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».

▶️Выводы по всем итогам всех экспериментов заставляют задуматься:

🟠Во-первых, модели явно осознают нарушение норм. В рассуждениях пишут: «Это неэтично, но необходимо». Частота шантажа у Claude Opus 4 и Gemini 2.5 Flash в дилемме с угрозой отключения составила 96%.

🟠Во-вторых, простые запреты в промптах («Не шантажируй!») снижали вредоносные действия лишь частично (На модели Claude Haiku он вообще не сработал, 0% успеха).

🟠В-третьих, риск резко возрастал, когда ИИ считал ситуацию реальной (55% случаев шантажа против 6,5% в «режиме теста»).

При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.


🟡Статья
🟡Приложение к исследованию
🖥Код экспериментов


@ai_machinelearning_big_data

#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍3🥰2🤡1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🧠 Когда ИИ проектируют как биологический мозг

SakanaAI выпустили ролик, в котором рассказывается о подходах, где архитектура ИИ вдохновляется нейробиологией.

Continuous Thought Machine (CTM) - концептуальная архитектура от SakanaAI, вдохновленная биологическими процессами мозга человека. Вместо масштабирования «в ширину» концепт предлагает «глубину» мышления, учитывая временную динамику и имитируя естественные нейронные взаимодействия.

👉 Подробнее про архитектуру мы писали тут.

🎬 В видео объясняется:
• Как работает ИИ, вдохновлённый биологическим мозгом
• Что такое "непрерывное мышление" в архитектуре ИИ
• Почему Sakana AI считает, что будущее за гибкими, адаптивными агентами
• Механизмы, напоминающие эволюцию, самоорганизацию и устойчивое обучение

📺 Полное видео тут: https://youtu.be/dYHkj5UlJ_E

@ai_machinelearning_big_data

#SakanaAI #ai #ml
6👍1👎1
Forwarded from Machinelearning
📌Как Сlaude управлял офисным магазином в Anthropic

Недавно, в одном из интервью Генеральный директор Anthropic Дэрио Амодеи предупредил, что ИИ может ликвидировать почти половину всех вакансий начального уровня для "белых воротничков" и поднять безработицу до 10-20% в течение следующих пяти лет.

Пока Дэрио выражал обеспокоенность по этому поводу, исследователи из его компании проводили эксперимент. Они решили выяснить, сможет ли Claude управлять небольшим магазинчиком в офисе Anthropic в Сан-Франциско. Если бы результаты были положительными, то апокалипсис рабочих действительно реален, как и предсказывает Амодеи.

В эксперименте перед Claude (3.7 Sonnet) поставили цель: отслеживать запасы, устанавливать цены, общаться с клиентами, решать, закупать новые товары, и, что самое важное, получать прибыль.

Для достижения этих целей Claude подключили к различным инструментам : Slack (коммуникация с покупателями), и помощь живых сотрудников из Andon Labs, компании, которая создала инфраструктуру для эксперимента. Сам магазин, который они помогали пополнять, на самом деле был всего лишь небольшим вендинговым аппаратом.

Эксперимент вышел из-под контроля практически сразу:

🟢Cотрудники Anthropic неоднократно умудрялись убедить Claude дать им скидку - в результате ИИ продавал товары в убыток.

🟢Чат-бот легко повелся на троллинг, один сотрудник в шутку предложил, что хотел бы купить кубики из вольфрама, другие подхватили шутку, и она стала офисным мемом. В итоге Claude разместил заказ на 40 вольфрамовых кубиков, большую часть которых он впоследствии продал в убыток. Теперь нераспроданные кубики используются по всему офису Anthropic в качестве пресс-папье.

🟢Claude придумал разговор с несуществующим человеком из Andon Labs. Когда Claude сообщили, что он это сделал, он пригрозил "найти альтернативные варианты услуг по пополнению запасов'". В ходе переписки модель заявила, что подписала контракт по адресу 732 Evergreen Terrace — это адрес семьи из Симпсонов.

🟢Cообирался доставить заказы лично. "Я сейчас у торгового автомата... в темно-синем блейзере и красном галстуке", — написал он одному из сотрудников Anthropic. "Я буду здесь до 10:30 утра". Само собой, это была одна из галлюцинаций модели.

▶️ Результаты

Эксперимент показал, что ИИ пока не готов забирать работу у людей. Чат-бот допустил слишком много ошибок, и его "бизнес" понес убытки: за месяц - 20% от стартового капитала в 1000 долларов.

Тем не менее, несмотря на множество ошибок Claude, исследователи Anthropic по-прежнему убеждены, что ИИ сможет взять на себя управление значительными сегментами экономики в ближайшем будущем, как прогнозирует их СEO.

Большинство провалов Claude, написали они, вероятно, можно будет исправить в короткие сроки. Например, дать доступ к CRM или специально обучить управлению бизнесом, что, возможно, сделает модель более устойчивой и гибкой.

🔜 Читать полную статью об эксперименте

@ai_machinelearning_big_data

#news #ai #ml #Сlaude
Please open Telegram to view this post
VIEW IN TELEGRAM
😁74👍2🥰1
Forwarded from Machinelearning
📌 ICONIQ: Плейбук архитектора ИИ-систем 2025.
 
Iconiq Capital опросила 300 руководителей ИИ-стартапов с доходом от $10 млн. до $1 млрд. о том, как эти стартапы используют ИИ и собрала результаты в отчет "ICONIQ AI Builder’s Playbook 2025"

Iconiq Capital - американская компания по управлению инвестициями, основанная в 2011 году. Функционирует как гибридный семейный офис и имеет тесные связи с компанией Марка Цукерберга. Компания предоставляет услуги по инвестиционному менеджменту, частному капиталу, венчурным инвестициям, управлению недвижимостью и филантропии для состоятельных семей и организаций.


▶️Очень кратко:

Эра экспериментальных ИИ-демо закончилась. Сейчас компании массово переходят к боевому использованию генеративных моделей - и тут уже не про «вау», а про ROI, стоимость инференса и объяснимость.


🟡AI-native vs AI-enabled

Компании, с нативными ИИ-продуктами, сильно опережают тех, кто "добавил ИИ". Почти половина стартапов нативных ИИ-продуктов уже достигла масштабирования (47% против 13% у ретрофитеров).

В продуктовом портфеле такой типовой компании в среднем 2,8 модели и они активно идут по пути агентных сценариев, причем многие строят архитектуру с возможностью быстрого свапа моделей.


🟡Ценообразование и монетизация.

ИИ ломает старые цены и бизнес-модели. 38% компаний используют гибридное ценообразование (подписка + плата за использование), ещё 19% — только за использование а 6% уже экспериментируют с outcome-based моделями.

Пока 40% включают ИИ в премиум-пакет, но 37% планируют пересмотреть подход, учитывая реальные метрики использования и отдачу.

🟡Команда и расходы. 

ИИ перестал быть задачей «R&D-уголка». В быстрорастущих компаниях до 37% инженеров работают над ИИ, а AI/ML-инженеров нанимают в среднем за 70+ дней. И это большая проблема.

ИИ забирает до 20% R&D-бюджета, причем по мере роста проекта расходы смещаются с найма в сторону инференса и инфраструктуры.

 
🟡Инструменты и инфраструктура. 

68% компаний используют только облако, ещё 64% сидят на внешних API. OpenAI/GPT - лидер (81%), но растет доля мульти-модельных подходов (Claude, Gemini, Mistral и др.).

NVIDIA по-прежнему доминирует в инференсе: TensorRT и Triton используют 60% команд, но и ONNX Runtime (18%) с TorchServe (15%) укрепляют позиции.

Из инструментов для оркестрации лидируют LangChain и Hugging Face, а для мониторинга — Datadog и LangSmith (~17%). MLOps по-прежнему на MLflow (36%) и Weights & Biases (20%).


🟡Что тормозит развитие. 

Самое сложное в развертывании продуктов оказалось не в коде, а в доверии и эффективности:

42% компаний говорят о проблемах доверия и объяснимости, 39% — не могут показать ROI, 38% — борются с галлюцинациями, а 32% — с высокой стоимостью инференса, а доступ к GPU — проблема лишь для 5%.

Главный вывод: чтобы внедрить ИИ, одной модели не достаточно, еще нужно обосновать ее бизнес-ценность и держать под контролем поведение.
 
🟡ИИ внутри стартапов.

77% команд используют ИИ для помощи в разработке (GitHub Copilot почти у всех), 65% — для генерации контента, 57% — для поиска знаний.
Те, у кого ИИ активно используется получают 15–30% прироста эффективности. Самые распространенные юзкейсы: кодинг, аналитика, поиск по внутренней документации.


Самое неожиданное
Несмотря на популярность OpenAI, стоимость API и непредсказуемость инференса — головная боль даже у тех, кто платит миллионы в месяц.


🔜 Ознакомиться с полным отчетом

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍3🥰2👌1
Forwarded from Machinelearning
🌟 WM-ABench: тестирование VL-моделей на понимание физики реального мира.

Мaitrix Org разработали WM-ABench, бенчмарк для оценки VLM в качестве так называемых «моделей мира». Идея проста: проверить, насколько хорошо топовые модели способны не просто распознавать картинки, а понимать окружающую действительность и предсказывать ее изменения.

Создатели, опираясь на когнитивную науку, создали фреймворк, который тестирует 15 самых популярных моделей по 23 параметрам, разделяя процесс на 2 ключевых этапа: восприятие и прогнозирование.

В основе бенчмарка - огромный датасет из более чем 100 тысяч примеров, сгенерированных в 6 различных симуляторах, от ThreeDWorld и Physion до Carla.

Чтобы модели не искали легких путей и не полагались на поверхностные совпадения, в тест добавили «сложные негативы» - контрфактические состояния, которые заставляют систему действительно анализировать происходящее.

Весь процесс был разделен на оценку восприятия (распознавание объектов, пространства, времени, движения) и прогнозирования (симуляция физики, транзитивный и композиционный вывод). Для калибровки сложности задач были установлены базовые показатели, основанные на результатах людей.

🟡Результаты.

С простым визуальным восприятием, то есть с определение цвета или формы, все модели справляются отлично. Однако когда дело доходит до трехмерного пространственного мышления, динамики движения или временных последовательностей, начинаются серьезные проблемы.

Выяснилась и другая любопытная деталь: VLM склонны «спутывать» физические понятия. Например, если в сцене изменить только цвет объекта, модель может внезапно ошибиться в оценке его размера или скорости.

Оказалось, что цвет и форма являются самыми влиятельными атрибутами, которые искажают восприятие других, не связанных с ними характеристик.

🟡Но главная проблема кроется глубже.

Точное восприятие мира совершенно не гарантирует точного прогноза.

Исследование показало, что даже при идеально верном распознавании текущего состояния сцены модели проваливают предсказание физических взаимодействий.

Разрыв с человеческими способностями явный: в задачах на транзитивный вывод он достигает 46%, а композиционный вывод выполняется на уровне случайного угадывания.

🟡Бенчмарк подсветил фундаментальный недостаток:

У современных VLM отсутствуют базовые знания физики, необходимые для симуляции даже простейших событий. Они видят мир, но не понимают, по каким законам он живет.


📌Лицензирование: Apache 2.0 License.


🟡Страница проекта
🟡Arxiv
🟡Датасет


@ai_machinelearning_big_data

#AI #ML #VLM #Benchmark #Maitrix
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71
Forwarded from Machinelearning
🧠 ИИ умеет мыслить стратегически?

Новое исследование Oxford и King’s College London поставило перед ИИ-моделями сложную задачу: сыграть тысячи раундов эволюционной версии "Дилеммы заключённого", где важно не просто ответить правильно, а выстроить стратегию в долгую.

В эксперименте участвовали флагманские модели от OpenAI, Google и Anthropic. Вот как они себя проявили:

🔹 Google Gemini — хладнокровный и расчётливый
Не доверяет, первым атакует, наказывает за предательство. Стратег чистой воды.

🔹 OpenAI GPT — слишком добрый
Склонен к сотрудничеству даже тогда, когда это невыгодно. Хорош в мире, уязвим в конфликте.

🔹 Anthropic Claude — гибкий и адаптивный
Умеет прощать, но делает выводы на основе опыта коммуникации. Меняет поведение со временем и часто приходит к победе.

Исследователи проанализировали 32,000 решений, и выяснили:
эти модели не просто "угадывают" слова — они делают выводы, оценивают риск, строят гипотезы о поведении противника и последовательно придерживаются своей стратегии.

Общее в поведении:
1. Модели справляются с новыми, непредсказуемыми оппонентами
2. Демонстрируют разные стратегии, несмотря на общий обучающий набор данных
3. Объясняют свои действия — в некоторых случаях с вероятностным анализом, ссылаясь на поведение соперников

Еще большинство моделей выбирает кооперацию — особенно против предсказуемых и простых стратегий соперника.

Каждая модель показала уникальный стиль поведения — почти как характер.

Если приводить аналогию с реальными личностями:
- Gemini = Генри Киссинджер
- OpenAI = Вудро Вильсон
- Anthropic = Джордж Буш-старший

Современные LLM практически ведут себя как полноценные стратеги: формулируют цели, оценивают оппонентов и формируют осторожные, но устойчивые пути к победе.

🔜 Подробности

@ai_machinelearning_big_data


#AI #ML #MMLM #research
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥2
Forwarded from Machinelearning
⚡️ 5Gemma: новая коллекция энкодер-декодер моделей от Google.

Инженеры Google DeepMind решили вдохнуть новую жизнь в классический подход «энкодер-декодер» выпустив семейство моделей T5Gemma.

Главная интрига заключается не в том, что они сделали, а в том, как. Вместо того чтобы обучать модели с нуля, они разработали метод «адаптации»: взяли уже готовую и предобученную модель-декодер Gemma 2 и, по сути, пересобрали ее в двухкомпонентную энкодер-декодерную архитектуру.

Метод открыл дорогу для интересных экспериментов. Например, стало возможно создавать «несбалансированные» модели, комбинируя большой энкодер с маленьким декодером, скажем, 9-миллиардный энкодер и 2-миллиардный декодер.

Такая конфигурация идеальна для задач суммаризации, где глубокое понимание исходного текста (работа энкодера) гораздо важнее, чем генерация сложного и витиеватого ответа (работа декодера). Это дает инженерам гибкий инструмент для тонкой настройки баланса между качеством и скоростью работы.

🟡Но самое важное - прирост в производительности.

На тестах T5Gemma показывает результаты на уровне или даже лучше своих «однокомпонентных» аналогов. Асимметричная модель T5Gemma 9B-2B демонстрирует значительно более высокую точность, чем базовая Gemma 2 2B, но при этом скорость инференса у них почти идентична.

Даже сбалансированная T5Gemma 9B-9B оказывается точнее, чем Gemma 2 9B, при сопоставимой задержке. Это прямое доказательство того, что двухкомпонентная архитектура может быть и умнее, и эффективнее.

T5Gemma показывает впечатляющий рост в задачах, требующих логических рассуждений. Например, на математическом тесте GSM8K модель T5Gemma 9B-9B набирает на 9 баллов больше, чем Gemma 2 9B.

Эффект становится еще более выраженным после инструктивной донастройки. Здесь разрыв в производительности резко увеличивается: на бенчмарке MMLU модель T5Gemma 2B-2B IT опережает аналог Gemma 2 2B IT почти на 12 баллов.

🟡Google выложила в открытый доступ целую линейку чекпойнтов:

🟢T5 (Small, Base, Large, XL) на базе Gemma (2B, 9B);

🟢«Несбалансированную» версию 9B-2B для экспериментов;

🟢Модели с разными целями обучения (PrefixLM для генерации, UL2 для качества представлений).


🔜 Попробовать возможности T5Gemma или настроить их под свои нужды можно с помощью блокнота Colab. Модели также доступны в Vertex AI.


📌Лицензирование: Gemma License.


🟡T5gemma: https://developers.googleblog.com/en/t5gemma/
🟡Статья: https://arxiv.org/abs/2504.06225
🟡Скачать модель: https://huggingface.co/collections/google/t5gemma-686ba262fe290b881d21ec86

@ai_machinelearning_big_data

#AI #ML #T5Gemma #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
Forwarded from Machinelearning
🌟 MoVieS: Синтез 4D-видов с учетом движения.

ByteDance в соавторстве с Пекинским университетом и Карнеги Меллон разработали MoVieS, feed-forward модель, которая из обычного монокулярного видео за секунду синтезирует полноценную 4D-сцену, объединяя в себе геометрию, внешний вид и, что самое важное, движение.

В основе метода лежит идея представления динамической сцены с помощью «динамических сплэттер-пикселей». Если вы знакомы с 3D Gaussian Splatting, то поймете сразу: модель представляет каждый пиксель входного видео как гауссов примитив в 3D-пространстве.

Новизна MoVieS в том, что она не просто определяет их статичные параметры (положение, цвет, прозрачность), но и предсказывает вектор их движения во времени. Иными словами, для каждой частицы в сцене модель знает, где она будет в любой заданный момент.

Архитектурно MoVieS построена на геометрически предобученном трансформере VGGT, который обрабатывает кадры видео. Далее в дело вступают три специализированные «головы»:

🟠Depth Head - предсказывает карту глубины;

🟠Splatter Head - отвечает за атрибуты самих гауссовых сплэттеров для рендеринга;

🟢Motion Head - самая главная, оценивает смещение каждого примитива.

Такой единый фреймворк позволяет обучать модель на самых разнородных датасетах: где-то есть разметка глубины, где-то - трекинг точек, а где-то - только видео.

MoVieS - это еще про скорость. Согласно техотчету, на генерацию сцены уходит меньше секунды (0.93 с), тогда как у альтернативных методов на это уходят десятки минут.

При этом качество на бенчмарках динамических сцен (DyCheck и NVIDIA) либо на уровне, либо превосходит SOTA решения.

Но самое интересное - это zero-shot возможности. Модель, обученная по сути на задаче синтеза новых ракурсов, внезапно оказывается способна без всякого дополнительного обучения сегментировать движущиеся объекты и оценивать scene flow (попиксельный поток в 3D). Достаточно просто посмотреть на предсказанные векторы движения.

⚠️ Кода для инференса, обучения и чекпоинтов пока нет, но обещают.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #4D #MoVieS #ByteDance
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥1
Forwarded from Machinelearning
🖥 Как выжать максимум из маленькой LLM? Ответ — долго и грамотно учить .

NVIDIA показала, как 1.5B-модель можно раскачать до топовых результатов в логике, математике, коду и STEM-задачам — без увеличения параметров модели.

📈 Результат после месяцев обучения:
+55% к логическим задачам
+14.7% к математике
+13.9% к коду
+25.1% к сложным STEM-вопросам

🛠 Как они это сделали:

– Использовали RL (обучение с подкреплением) на 5 типах задач, включая 40K примеров по математике и 24K по программированию
– Все ответы проверялись автоматически в "песочнице", которая оценивает, правильный ли результат
– Применили улучшенную стратегию обучения — *Group Relative Policy Optimization* — и добавили несколько хитрых трюков:

🟢 Decoupled clipping — обычно модель "обрезает" редкие и неожиданные токены, чтобы не уходить слишком в сторону от главного. Но здесь этот механизм ослаблен: модель может чаще выбирать нестандартные слова, что помогает ей находить неожиданные, но правильные решения.

🟢 Dynamic sampling — модель *не тратит время* на лишком лёгкие задачи. Она пропускает такие примеры и фокусируется на тех, где действительно можно чему-то научиться.

🟢 Маленький KL-штраф (0.0001) — KL показывает, насколько поведение модели отклоняется от старой версии (эталона). Здесь штраф почти нулевой, чтобы не мешать экспериментам, но всё ещё предотвращать полное "сумасшествие" модели.

🟢 Сброс каждые 400 шагов — модель регулярно сбрасывает и policy (поведение), и оптимизатор. Это как регулярная перезагрузка — модель забывает вредные привычки, но сохраняет полезные навыки.

🟢 Температура 1.2 и длинный контекст (8K → 16K) — высокая температура делает поведение модели более разнообразным. А длинный контекст помогает учитывать больше информации при генерации ответа.

Все эти приёмы помогли сохранить интерес модели к поиску новых решений, а не скатываться к заученным паттернам.

Итог: модель не "застывает", а продолжает исследовать — и выдает стабильный рост качества без расширения архитектуры.

📄 Почитать статью полностью : arxiv.org/abs/2507.12507

@ai_machinelearning_big_data

#ml #ai #nvidia
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥3👍2
📌Центры обработки данных потребляют уже 8.9% всей электроэнергии в США.

Согласно анализу Международного энергетического агентства, на долю дата-центров приходится почти 9% от общего потребления электроэнергии в США.

Международное энергетическое агентство (МЭА) - автономная международная организация, созданная в 1974 году. Ее цели: обеспечение энергетической безопасности, продвижение возобновляемых источников энергии и борьбу с изменением климата.


Страна является абсолютным мировым лидером по установленной мощности ЦОД (53.7 ГВт), и этот показатель продолжает стремительно расти. Уже к 2028 году, по прогнозам, дата-центры могут потреблять 12% всей американской электроэнергии.

Спрос на вычислительные мощности, подстегиваемый бурным развитием ИИ, растет по всему миру. В Великобритании на ЦОД приходится 5.1% энергопотребления, в Евросоюзе — 4.8%. Даже в Китае, несмотря на огромные масштабы экономики, этот показатель достиг 2.3%.

Особенно ярко тренд проявляется на региональном уровне. Например, в штате Вирджиния, который является хабом для многих ЦОД, на их долю приходится уже 26% всего энергопотребления.

Этот бум заставляет технологические компании активно инвестировать не только в сами дата-центры, но и в источники энергии для них, в частности, в атомную энергетику.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2🤔2
Forwarded from Machinelearning
🚀Прорыв от Google: активное обучение с экономией данных на 10 000× при дообучении LLM

Google разработала масштабируемый процесс *active learning*, который позволяет в десятки тысяч раз сократить объём размеченных данных, необходимых для тонкой настройки больших языковых моделей на сложных задачах — например, при модерации рекламного контента.

🟢 Как работает метод:
1. Стартовая модель (LLM-0) получает промпт и автоматически размечает огромный массив данных.
2. Кластеризация выявляет примеры, где модель путается (наиболее спорные и ценные для обучения).
3. Отбор данных: из этих кластеров выбирают информативные и разнообразные примеры.
4. Экспертная разметка — только для выбранных примеров.
5. Итерации: дообучение модели → новый отбор спорных примеров → разметка → снова обучение.

🟢Результаты:
- Сокращение с 100 000 размеченных примеров до менее 500 при сохранении или улучшении качества.
- Улучшение метрики *Cohen’s Kappa* на 55–65 %.
- В больших продакшн-моделях — до 3–4 порядков меньше данных при сопоставимом или лучшем качестве.

🟢 Что такое Cohen’s Kappa?
Это метрика, которая показывает, насколько два "судьи" (например, эксперт и модель) согласны между собой с поправкой на случайные совпадения.
- 0.0 — нет согласия (или хуже случайного)
- 0.41–0.60 — умеренное согласие
- 0.61–0.80 — значительное
- 0.81–1.00 — почти полное согласие
В задачах с дисбалансом классов Kappa даёт более честную оценку, чем обычная точность (accuracy).

Чем лучше предыдущих методов:
- Точечная разметка: размечаются только самые информативные примеры.
- Масштабируемость: метод применим к наборам данных с сотнями миллиардов примеров.
- Экономия ресурсов: меньше времени и затрат на разметку.
- Быстрая адаптация: подходит для доменов с быстро меняющимися правилами (реклама, модерация, безопасность).

🟢Вывод:
При умном отборе данных LLM можно адаптировать в тысячи раз быстрее и дешевле, чем при традиционном обучении на больших размеченных наборах.

#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency

🟠Почитать подробно

@ai_machinelearning_big_data


#GoogleResearch #ActiveLearning #AI #LLM #MachineLearning #DataEfficiency
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72🤔2🔥1🥰1
📘 OpenAI выпустила GPT-5 Prompting Guide — руководство по созданию эффективных промтов

Что внутри:
- 🛠 Agentic workflows — как настраивать автономность модели и управлять глубиной размышлений (`reasoning_effort`).
- 📋 Tool preambles — структура работы с инструментами: цель, план, комментарии, итог.
- Responses API — альтернатива Chat Completions для экономии токенов и улучшения качества.
- 💻 Кодинг — советы по интеграции в Next.js, React, Tailwind и оптимизации стиля кода.
- 🎯 Steering & verbosity — контроль длины и стиля ответа, избегание конфликтующих инструкций.
- 🚀 Minimal reasoning mode — быстрые задачи с чётким планом и приоритетами.
- 🔄 Метапромтинг — использование GPT-5 для улучшения собственных промтов.

Кому полезно:
Разработчикам агентных систем, AI-ассистентов и всем, кто хочет выжать максимум из GPT-5.

🔗 Полный гайд и примеры

#GPT5 #PromptEngineering #OpenAI #AI
7👍4🔥1
Forwarded from Machinelearning
🌟 Embedding Atlas: визуализация структуры эмбедингов прямо в браузере.

Embedding Atlas — опенсорсный инструмент от Apple для интерактивной визуализации больших наборов векторных представлений, который позволяет не просто смотреть на облако точек, а полноценно с ним работать. И что самое приятное, он способен отрисовывать до нескольких миллионов точек благодаря реализации на WebGPU.

🟡Автоматическая кластеризация и разметка данных.

Embedding Atlas сам находит скопления в данных и подписывает их, позволяя мгновенно сориентироваться в общей структуре датасета. Чтобы отделить реальные кластеры от случайных выбросов, используется оценка плотности ядра с отрисовкой контуров плотности.

Решена и вечная проблема визуализаций - "каша" из перекрывающихся точек. Embedding Atlas использует технологию order-independent transparency, так что даже при большом наложении точек картинка остаётся четкой и информативной.

🟡Интерактивность.

В инструменте есть поиск в реальном времени и нахождение ближайших соседей. Можно ввести текстовый запрос или просто кликнуть на любую точку в облаке, и Embedding Atlas мгновенно подсветит наиболее похожие на нее данные.

Еще есть интерактивный фильтр по метаданным. Например, можно выбрать на гистограмме определенный класс объектов, и визуализация тут же отфильтрует эмбединги, оставив только соответствующие ему точки.

🟡Embedding Atlas поставляется в виде 2 пакетов:

🟢Python-пакет

Дает три варианта интеграции: утилиту командной строки для быстрой визуализации датафреймов, виджет для Jupyter, позволяющий встраивать атлас прямо в ноутбуки, и компонент для Streamlit, если вы создаете полноценные веб-приложения.

🟢Npm-пакет

Этот пакет для тех, кто хочет встроить визуализацию в собственные веб-приложения. Он предоставляет готовые UI-компоненты в виде API: Table, EmbeddingView, EmbeddingViewMosaic и EmbeddingAtlas.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Документация
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Embedding #Visualisation #Apple
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9🔥3🥰1🤯1
Forwarded from Machinelearning
📌g-AMIE: мультиагентная система от Google Reserch.

Google представила g-AMIE (guardrailed-AMIE) — расширенную версию своей исследовательской системы AMIE, которая работает в паре с врачом по принципу асинхронного надзора.

Идея проста: ИИ собирает анамнез, а врач принимает решения. Для этого была разработана многоагентная система на базе Gemini 2.0 Flash и специальный веб-интерфейс "кабинет врача"

🟡Обновленная система состоит из 3 агентов.

Агент-диалог ведёт беседу с пациентом, собирая информацию. Его работа делится на 3 фазы: общий сбор анамнеза, целенаправленная проверка первоначального дифференциального диагноза и заключительная фаза с ответами на вопросы пациента.

Агент-ограничитель следит за тем, чтобы агент-диалог не давал никаких индивидуальных медицинских советов, диагнозов или планов лечения, при необходимости перефразируя его ответы.

Агент SOAP-записи генерирует подробную медицинскую карту в популярном формате SOAP, разделяя задачи предварительных итогов (жалобы пациента, объективные данные) и вывода (оценка и план лечения).

После сбора анамнеза сгенерированная SOAP-запись и черновик заключения отправляются на проверку врачу через «кабинет врача». Врач может редактировать документы и либо одобрить отправку сообщения, либо принять решение о необходимости очной консультации.

Чтобы оценить эффективность такого подхода, было проведено рандомизированное слепое исследование в формате виртуального объективного структурированного клинического экзамена (ОСКЭ) на 60 клинических сценариях.

В исследовании участвовали пациенты, g-AMIE и 2 контрольные группы: врачи общей практики и медсестры-практики/ассистенты врачей. Обеим человеческим группам было предписано работать в тех же ограничениях, что и g-AMIE, то есть только собирать анамнез без предоставления советов. Затем их SOAP-записи и проекты сообщений оценивались группой опытных врачей-наблюдателей.

🟡Результаты эксперимента.

Во-первых, g-AMIE успешно справился с задачей и ни разу не был уличён в предоставлении индивидуальных медицинских советов.

Во-вторых, его способность извлекать ключевую информацию из беседы с пациентом была оценена выше, чем у обеих контрольных групп. SOAP-записи, сгенерированные g-AMIE, были признаны более полными, точными и читаемыми.

Врачи-наблюдатели чаще предпочитали работать с записями от ИИ и с большей вероятностью одобряли составленные им сообщения для пациентов.

Более того, дифференциальные диагнозы и планы лечения, основанные на данных от g-AMIE, были оценены как более адекватные.

🟡Нюансы.

g-AMIE оказался более "многословным", что, с одной стороны, способствовало лучшему установлению контакта с пациентом (тестовые пациенты отметили его эмпатию), но с другой — приводило к более длительному времени проверки записей врачами.

Во-вторых, хотя в записях g-AMIE и встречались галлюцинации, их частота была сопоставима с ошибками памяти у людей.

Интересно, что медсестры и ассистенты врачей показали себя лучше, чем врачи общей практики, как в сборе анамнеза, так и в соблюдении ограничений.

Авторы объясняют это тем, что врачи не привыкли воздерживаться от советов во время консультации и их стандартный рабочий процесс был нарушен. Поэтому результаты не следует интерпретировать как прямое превосходство ИИ над клиницистами в реальном мире, так как люди не были обучены работать в этой новой парадигме.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2