Forwarded from Machinelearning
Sakana AI впервые провела реальный эксперимент: три научные статьи, полностью сгенерированные ИИ (The AI Scientist-v2), были отправлены на слепое рецензирование на ICLR Workshop 2025.
Одна из них получила баллы выше среднего уровня принятия — лучше многих статей, написанных людьми. Это исторический момент в научной публикационной практике.
Статьи были на 100% созданы AI — от идеи до финального форматирования и списка литературы.
Человек не правил ни одного слова: только выбрал тему и три лучшие статьи из набора, сгенерированного AI.
В ICLR Workshop было отправлено 3 статьи из 43 (≈7%) — рецензенты знали, что среди них есть AI-работы, но не знали, какие именно.
- 2 статьи были отклонены.
- 1 статья прошла, получив баллы:
Средняя оценка статьи: 6.33 — это выше, чем у многих человеческих работ, принятых на воркшоп.
— Придумывает научные идеи
— Пишет и запускает код для экспериментов
— Анализирует результаты, строит графики
— Сама пишет статью в научном формате
— И… сама себя рецензирует
@ai_machinelearning_big_data
#ai #ml #Sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤡5❤4🔥1💩1
Forwarded from Machinelearning
Объемная и интересная статья Sebastian Raschka, автора книги "
Build a Large Language Model From Scratch
" о тенденциях и проблемах современных методов обучения LLM через призму RL.В мире LLM последние месяцы стали переломными. Релизы GPT-4.5 и Llama 4, вопреки ожиданиям, не вызвали ажиотажа — все потому, что эти модели остались «классическими», без продвинутых методов обучения для рассуждений. Их конкуренты - xAI и Anthropic уже добавили кнопки «расширенного мышления», а OpenAI представила o3 — модель, где упор сделан на стратегическое применение вычислений через обучение с подкреплением. Становится ясно: масштабирование данных и параметров почти исчерпало себя, и будущее за RL.
Основной инструмент RLHF (обучение с подкреплением на основе человеческой обратной связи) давно используется для настройки LLM под предпочтения людей. Но для задач, требующих логики, этого недостаточно.
Здесь на сцену выходит GRPO — модификация алгоритма PPO, которая экономит ресурсы, убирая «критика» (модель оценки вознаграждения). Так создавалась DeepSeek-R1-Zero, ее обучали вообще без этапа SFT, используя только автоматические проверки ответов. Если математическая задача решена верно, модель получает «плюс», если нет — «минус». Такой подход не только дешевле, но и снижает риск «обмана» модели (reward hacking).
Но и RL — не панацея. Исследования показывают, что PPO и GRPO неявно поощряют длинные ответы, даже если те ошибочны. Например, при отрицательном вознаграждении штраф распределяется по токенам, и модель учится растягивать текст, чтобы смягчить наказание.
Решения уже есть: одни команды вводят штрафы за длину, другие меняют расчет преимуществ. А модель L1 от Kaggle и вовсе позволяет пользователям задавать желаемую длину ответа, балансируя между точностью и затратами.
Способность к рассуждениям может возникать и без RL. DeepSeek V3 демонстрирует мыслительные «озарения», хотя ее не обучали специально. Этот факт всерьез ставит под вопрос исключительную роль RL — возможно, все дело в данных, где уже есть цепочки логических шагов.
Тем не менее, RL усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты (калькуляторы, поиск) и даже переносить навыки между доменами — от математики до медицины.
Некоторые заявления о прогрессе оказались преувеличены: улучшения на мелких моделях часто нестабильны, а результаты зависят от случайных факторов вроде выбора сида. Кроме того, RL требует внушительных ресурсов (o3 от OpenAI потратила при обучении в 10 раз больше вычислений, чем предыдущая версия)
В итоге, RL остается ключевым направлением, но важно избегать «эйфории». Сочетание RL с автоматической проверкой ответов, контроль длины и гибридные подходы (как в DeepSeek-R1) — вот что приближает нас к моделям, которые не просто генерируют текст, а действительно думают.
@ai_machinelearning_big_data
#AI #ML #LLM #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1
🧠 Математика, красота и истина в эпоху ИИ
Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это.
В статье исследуется, как ИИ трансформирует подходы к математике:
🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры.
🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде.
🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики".
> “Они разрушают те границы, которые я считал непреодолимыми”
> — Эндрю Грэнвилл, математик
⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»?
📌 Полный текст
#искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука
Когда-то математическое доказательство считалось вершиной человеческой логики и элегантности. Но ИИ меняет даже это.
В статье исследуется, как ИИ трансформирует подходы к математике:
🔹 ИИ создает доказательства — не просто перебором, а находя закономерности, генерируя гипотезы и даже формируя контрпримеры.
🔹 Модели уровня DeepMind уже выигрывают медали на Международной математической олимпиаде.
🔹 Красота и элегантность в доказательствах теперь оцениваются не только людьми — ИИ начинает создавать новые формы "математической эстетики".
> “Они разрушают те границы, которые я считал непреодолимыми”
> — Эндрю Грэнвилл, математик
⚖️ Дискуссия: если ИИ способен доказать теорему, но человек не может это понять — считается ли это «знанием»?
📌 Полный текст
#искусственныйинтеллект #математика #ChatGPT #DeepMind #LLM #AI #наука
❤5👍2🔥1🤮1
Forwarded from Machinelearning
Мэри Микер, легендарная "Королева интернета", вернулась с первым за 5 лет тренд-отчетом и целиком посвятила его ИИ.
В нем проанализированы темпы внедрения ИИ, снижение затрат на вычисления, рост конкуренции между компаниями и странами и перспективы достижения AGI.
Мери Микер - венчурный инвестор, фаундер BOND, бывший аналитик по ценным бумагам Morgan Stanley . В феврале 1996 года в соавторстве с Крисом Депюи опубликовала «The Internet Report» - знаменательный отраслевой отчет, который стал известен как «библия» для инвесторов в период бума доткомов. В 2022 году она заняла 2 место в списке женщин-инвесторов Forbes.
Но не все так радужно. Финансовая отдача ИИ пока не обгоняет прошлые технологические волны. Венчурные фонды льют деньги в ИИ, но сами компании (и облачные провайдеры) сжигают кэш с запредельной скоростью.
Держитесь крепче — революция будет стремительной и неспокойной!
@ai_machinelearning_big_data
#ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤4👍2💩2
Forwarded from Just Xor
Physics-based Deep Learning
Это практическое руководство по применению глубокого обучения в физическом моделировании.
Вместо сухой теории — акцент на реальных задачах: каждую концепцию сопровождает интерактивный Jupyter-ноутбук, чтобы можно было сразу пробовать и понимать.
📌 Что внутри:
🔹 Физически-осмысленные функции потерь
🔹 Дифференцируемые симуляции
🔹 Диффузионные модели для генеративной физики
🔹 Обучение с подкреплением в задачах динамики
🔹 Современные архитектуры нейросетей для симуляций
🔹 Связь с научными foundation-моделями нового поколения
🧠 Это книга о том, как AI меняет подход к вычислительной науке: от классических симуляций — к гибриду машинного обучения и физики.
🌍 Идеально подойдёт исследователям, инженерам, data scientists и всем, кто работает на стыке науки и ИИ.
#DeepLearning #Physics #ScientificML #DifferentiableSimulation #AI #FoundationModels
https://arxiv.org/pdf/2109.05237
Это практическое руководство по применению глубокого обучения в физическом моделировании.
Вместо сухой теории — акцент на реальных задачах: каждую концепцию сопровождает интерактивный Jupyter-ноутбук, чтобы можно было сразу пробовать и понимать.
📌 Что внутри:
🔹 Физически-осмысленные функции потерь
🔹 Дифференцируемые симуляции
🔹 Диффузионные модели для генеративной физики
🔹 Обучение с подкреплением в задачах динамики
🔹 Современные архитектуры нейросетей для симуляций
🔹 Связь с научными foundation-моделями нового поколения
🧠 Это книга о том, как AI меняет подход к вычислительной науке: от классических симуляций — к гибриду машинного обучения и физики.
🌍 Идеально подойдёт исследователям, инженерам, data scientists и всем, кто работает на стыке науки и ИИ.
#DeepLearning #Physics #ScientificML #DifferentiableSimulation #AI #FoundationModels
https://arxiv.org/pdf/2109.05237
❤5
Это практическое руководство по применению глубокого обучения в физическом моделировании. Вместо сухой теории — акцент на реальных задачах: каждую концепцию сопровождает интерактивный Jupyter-ноутбук, чтобы можно было сразу пробовать и понимать.
📌 Что внутри:
🔹 Физически-осмысленные функции потерь
🔹 Дифференцируемые симуляции
🔹 Диффузионные модели для генеративной физики
🔹 Обучение с подкреплением в задачах динамики
🔹 Современные архитектуры нейросетей для симуляций
🔹 Связь с научными foundation-моделями нового поколения
🧠 Это книга о том, как AI меняет подход к вычислительной науке: от классических симуляций — к гибриду машинного обучения и физики.
🌍 Идеально подойдёт исследователям, инженерам, data scientists и всем, кто работает на стыке науки и ИИ.
#DeepLearning #Physics #ScientificML #DifferentiableSimulation #AI #FoundationModels
📚 Книга
@machinelearning_books
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Forwarded from Machinelearning
Microsoft Research представила методы, усиливающие способность языковых моделей, от компактных до гигантских к сложным рассуждениям. Технологии фокусируются на 3 направлениях: архитектура малых моделей, математическая строгость и кросс-доменное обобщение.
Ключ для маленьких моделей (1.5–7 млрд параметров) в имитации человеческого пошагового мышления.
rStar-Math использует алгоритм MCTS в цикле самообучения: сначала декомпозиция задачи на шаги, затем Process Preference Model (PPM), который учит модель оценивать качество каждого шага через "метки награды", и наконец — итеративная доработка. За 4 цикла MCTS, стратегия и PPM совместно улучшают результат.
Logic-RL — это фреймворк обучения с подкреплением, который награждает модель только при идеально оформленном ходе рассуждений и верном ответе, исключая любые попытки выбора обходных путей.
Для математической надежности разработан LIPS, гибрид ИИ и символьных движков. LIPS распределяет задачи: языковая модель распознает паттерны и переформулирует условия (например, неравенства), а символьный решатель выполняет точные преобразования (масштабирование, упрощение).
Чтобы ИИ понимал условия без ошибок, создан нейро-символический фреймворк генерации данных: символьные системы создают задачи, а языковые модели переводят их в "человеческий" текст. Для проверки выводов используются символьная эквивалентность (сравнение формул) и семантическая согласованность (анализ смысла через эмбеддинги), повышая точность на 35%.
Дополнительный бонус — неожиданное обобщение. Тренировка на математике резко улучшила результаты моделей в программировании и естественных науках.
Для унификации подходов создан Chain-of-Reasoning (CoR), позволяющий гибко комбинировать текстовые, программные и символьные рассуждения в одном решении. А Critical Plan Step Learning (CPL) учит ИИ стратегическому планированию: разбивать проблему, выделять ключевые шаги и отбрасывать слабые варианты через комбинацию Plan-based MCTS и Step-APO.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Reasoning #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2🥰1
Forwarded from Machinelearning
Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.
Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.
Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.
Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:
В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».
При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.
@ai_machinelearning_big_data
#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍3🥰2🤡1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🧠 Когда ИИ проектируют как биологический мозг
SakanaAI выпустили ролик, в котором рассказывается о подходах, где архитектура ИИ вдохновляется нейробиологией.
Continuous Thought Machine (CTM) - концептуальная архитектура от SakanaAI, вдохновленная биологическими процессами мозга человека. Вместо масштабирования «в ширину» концепт предлагает «глубину» мышления, учитывая временную динамику и имитируя естественные нейронные взаимодействия.
👉 Подробнее про архитектуру мы писали тут.
🎬 В видео объясняется:
• Как работает ИИ, вдохновлённый биологическим мозгом
• Что такое "непрерывное мышление" в архитектуре ИИ
• Почему Sakana AI считает, что будущее за гибкими, адаптивными агентами
• Механизмы, напоминающие эволюцию, самоорганизацию и устойчивое обучение
📺 Полное видео тут: https://youtu.be/dYHkj5UlJ_E
@ai_machinelearning_big_data
#SakanaAI #ai #ml
SakanaAI выпустили ролик, в котором рассказывается о подходах, где архитектура ИИ вдохновляется нейробиологией.
Continuous Thought Machine (CTM) - концептуальная архитектура от SakanaAI, вдохновленная биологическими процессами мозга человека. Вместо масштабирования «в ширину» концепт предлагает «глубину» мышления, учитывая временную динамику и имитируя естественные нейронные взаимодействия.
👉 Подробнее про архитектуру мы писали тут.
🎬 В видео объясняется:
• Как работает ИИ, вдохновлённый биологическим мозгом
• Что такое "непрерывное мышление" в архитектуре ИИ
• Почему Sakana AI считает, что будущее за гибкими, адаптивными агентами
• Механизмы, напоминающие эволюцию, самоорганизацию и устойчивое обучение
📺 Полное видео тут: https://youtu.be/dYHkj5UlJ_E
@ai_machinelearning_big_data
#SakanaAI #ai #ml
❤6👍1👎1
Forwarded from Machinelearning
Недавно, в одном из интервью Генеральный директор Anthropic Дэрио Амодеи предупредил, что ИИ может ликвидировать почти половину всех вакансий начального уровня для "белых воротничков" и поднять безработицу до 10-20% в течение следующих пяти лет.
Пока Дэрио выражал обеспокоенность по этому поводу, исследователи из его компании проводили эксперимент. Они решили выяснить, сможет ли Claude управлять небольшим магазинчиком в офисе Anthropic в Сан-Франциско. Если бы результаты были положительными, то апокалипсис рабочих действительно реален, как и предсказывает Амодеи.
В эксперименте перед Claude (3.7 Sonnet) поставили цель: отслеживать запасы, устанавливать цены, общаться с клиентами, решать, закупать новые товары, и, что самое важное, получать прибыль.
Для достижения этих целей Claude подключили к различным инструментам : Slack (коммуникация с покупателями), и помощь живых сотрудников из Andon Labs, компании, которая создала инфраструктуру для эксперимента. Сам магазин, который они помогали пополнять, на самом деле был всего лишь небольшим вендинговым аппаратом.
Эксперимент вышел из-под контроля практически сразу:
Эксперимент показал, что ИИ пока не готов забирать работу у людей. Чат-бот допустил слишком много ошибок, и его "бизнес" понес убытки: за месяц - 20% от стартового капитала в 1000 долларов.
Тем не менее, несмотря на множество ошибок Claude, исследователи Anthropic по-прежнему убеждены, что ИИ сможет взять на себя управление значительными сегментами экономики в ближайшем будущем, как прогнозирует их СEO.
Большинство провалов Claude, написали они, вероятно, можно будет исправить в короткие сроки. Например, дать доступ к CRM или специально обучить управлению бизнесом, что, возможно, сделает модель более устойчивой и гибкой.
@ai_machinelearning_big_data
#news #ai #ml #Сlaude
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7❤4👍2🥰1
Forwarded from Machinelearning
Iconiq Capital опросила 300 руководителей ИИ-стартапов с доходом от $10 млн. до $1 млрд. о том, как эти стартапы используют ИИ и собрала результаты в отчет "ICONIQ AI Builder’s Playbook 2025"
Iconiq Capital - американская компания по управлению инвестициями, основанная в 2011 году. Функционирует как гибридный семейный офис и имеет тесные связи с компанией Марка Цукерберга. Компания предоставляет услуги по инвестиционному менеджменту, частному капиталу, венчурным инвестициям, управлению недвижимостью и филантропии для состоятельных семей и организаций.
Эра экспериментальных ИИ-демо закончилась. Сейчас компании массово переходят к боевому использованию генеративных моделей - и тут уже не про «вау», а про ROI, стоимость инференса и объяснимость.
Компании, с нативными ИИ-продуктами, сильно опережают тех, кто "добавил ИИ". Почти половина стартапов нативных ИИ-продуктов уже достигла масштабирования (47% против 13% у ретрофитеров).
В продуктовом портфеле такой типовой компании в среднем 2,8 модели и они активно идут по пути агентных сценариев, причем многие строят архитектуру с возможностью быстрого свапа моделей.
ИИ ломает старые цены и бизнес-модели. 38% компаний используют гибридное ценообразование (подписка + плата за использование), ещё 19% — только за использование а 6% уже экспериментируют с outcome-based моделями.
Пока 40% включают ИИ в премиум-пакет, но 37% планируют пересмотреть подход, учитывая реальные метрики использования и отдачу.
ИИ перестал быть задачей «R&D-уголка». В быстрорастущих компаниях до 37% инженеров работают над ИИ, а AI/ML-инженеров нанимают в среднем за 70+ дней.
ИИ забирает до 20% R&D-бюджета, причем по мере роста проекта расходы смещаются с найма в сторону инференса и инфраструктуры.
68% компаний используют только облако, ещё 64% сидят на внешних API. OpenAI/GPT - лидер (81%), но растет доля мульти-модельных подходов (Claude, Gemini, Mistral и др.).
NVIDIA по-прежнему доминирует в инференсе: TensorRT и Triton используют 60% команд, но и ONNX Runtime (18%) с TorchServe (15%) укрепляют позиции.
Из инструментов для оркестрации лидируют LangChain и Hugging Face, а для мониторинга — Datadog и LangSmith (~17%). MLOps по-прежнему на MLflow (36%) и Weights & Biases (20%).
Самое сложное в развертывании продуктов оказалось не в коде, а в доверии и эффективности:
42% компаний говорят о проблемах доверия и объяснимости, 39% — не могут показать ROI, 38% — борются с галлюцинациями, а 32% — с высокой стоимостью инференса, а доступ к GPU — проблема лишь для 5%.
Главный вывод: чтобы внедрить ИИ, одной модели не достаточно, еще нужно обосновать ее бизнес-ценность и держать под контролем поведение.
77% команд используют ИИ для помощи в разработке (GitHub Copilot почти у всех), 65% — для генерации контента, 57% — для поиска знаний.
Те, у кого ИИ активно используется получают 15–30% прироста эффективности. Самые распространенные юзкейсы: кодинг, аналитика, поиск по внутренней документации.
Самое неожиданное
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3🥰2👌1