Forwarded from Machinelearning
🔥 «The State of LLM Reasoning Models» свежая статья от Себастьяна Рашка, которая посвящена современному состоянию исследований в области рассуждений (reasoning) и масштабирования выводов (inference scaling) для больших языковых моделей (LLM).
Основные моменты:
- Эволюция возможностей рассуждения:
В статье показано, как с увеличением размеров моделей и вычислительных ресурсов появляются «внезапные» способности, позволяющие моделям выполнять сложное логическое и пошаговое рассуждение. Это включает методы вроде chain-of-thought, которые помогают моделям структурировать ответ.
- Масштабирование и его эффекты:
Анализируются закономерности масштабирования — как увеличение числа параметров и использование более мощных аппаратных средств влияет на точность и способность моделей к рассуждению. Выявляются пределы, где дополнительные вычисления начинают давать менее заметное улучшение.
- Инновации в инференсе:
Статья рассматривает новые подходы к оптимизации процесса инференса, что особенно важно для применения LLM в реальном времени и на устройствах с ограниченными ресурсами. Поднимается вопрос балансировки между качеством ответов и затратами на вычисления.
- Практические выводы для исследований:
Сатья служит ориентиром, показывающим, какие направления развития (например, улучшение алгоритмов рассуждения, оптимизация инференс-методов) могут принести наибольший эффект при дальнейшем увеличении масштабов моделей. Это позволяет понять, куда двигаться в будущих исследованиях и как лучше интегрировать существующие технологии в практические приложения.
Отличное воскресенье чтиво📕
📌 Читать
#ai #ml #reasoning #llm
Основные моменты:
- Эволюция возможностей рассуждения:
В статье показано, как с увеличением размеров моделей и вычислительных ресурсов появляются «внезапные» способности, позволяющие моделям выполнять сложное логическое и пошаговое рассуждение. Это включает методы вроде chain-of-thought, которые помогают моделям структурировать ответ.
- Масштабирование и его эффекты:
Анализируются закономерности масштабирования — как увеличение числа параметров и использование более мощных аппаратных средств влияет на точность и способность моделей к рассуждению. Выявляются пределы, где дополнительные вычисления начинают давать менее заметное улучшение.
- Инновации в инференсе:
Статья рассматривает новые подходы к оптимизации процесса инференса, что особенно важно для применения LLM в реальном времени и на устройствах с ограниченными ресурсами. Поднимается вопрос балансировки между качеством ответов и затратами на вычисления.
- Практические выводы для исследований:
Сатья служит ориентиром, показывающим, какие направления развития (например, улучшение алгоритмов рассуждения, оптимизация инференс-методов) могут принести наибольший эффект при дальнейшем увеличении масштабов моделей. Это позволяет понять, куда двигаться в будущих исследованиях и как лучше интегрировать существующие технологии в практические приложения.
Отличное воскресенье чтиво
📌 Читать
#ai #ml #reasoning #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1🔥1
Forwarded from Machinelearning
Это подробный гайд, где описан процесс разработки приложения для автоматического обнаружения рукописных подписей в документах.
В итоге получился очень годный гайд, со множеством технических деталей.
Сравнительный анализ архитектур показал, что YOLOv8 - обеспечивает идеальный баланс между скоростью и точностью для данной задачи, достигая 94,74 % точности и 89,72 % после оптимизации гиперпараметров с помощью Optuna.
Достигнута высокая точность распознавания: mAP@50 – 94.50%, mAP@50-95 – 67.35%.
Итоговая модель демонстрирует сбалансированное соотношение между точностью, скоростью инференса и экономичностью ресурсов.
Статья демонстрирует, как грамотное сочетание современных архитектур обнаружения объектов, тщательная подготовка данных и оптимизация гиперпараметров позволяет создать эффективное и готовое к развёртыванию решение, очень рекомендуем прочесть ее полностью.
А здесь можно почитать описание семейства моделей Yolo.
#yolo #guide #detection #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍6🔥2❤🔥1
Forwarded from Machinelearning
Курс сочетает теорию (математика, физика) и практику (код, симуляторы), помогая разработчикам научиться создавать и программировать роботов.
▪ Лекции: От основ робототехники, математики и физики до пространственных преобразований, обратной кинематике и более продвинутым концепциям .
▪ Практика: Примеры кода на Python и C++ для управления роботами.
▪Симуляторы: Интеграция с стимуляторами Gazebo и ROS ( операционная система для робото) для тестирования алгоритмов.
▪Задания: Реальные практические задачи (например, управление манипулятором робота).
▪ Начинающие робототехники: Освоить кинематику, динамику, управление.
▪ Программисты: Интегрировать алгоритмы в ROS, Gazebo, Python/C++.
▪ Инженеры: Возможность Научиться разрабатывать автономные системы и манипуляторы.
▪Технологические энтузиасты
С курсом можно пройти путь от нуля до создания рабочего прототипа.
С курсом у вас будет возможность проектировать роботов, не имея железа под рукой (через симуляторы).
P.S. Для тех, кто любит формат «сделай сам»: Курс научит вас собирать робота виртуально, а потом переносить решения на реальные устройства. 🤖💡
#course #ai #ml #robots #education #курс #робототехника
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥4👍2🥰1
Forwarded from Machinelearning
Sakana AI впервые провела реальный эксперимент: три научные статьи, полностью сгенерированные ИИ (The AI Scientist-v2), были отправлены на слепое рецензирование на ICLR Workshop 2025.
Одна из них получила баллы выше среднего уровня принятия — лучше многих статей, написанных людьми. Это исторический момент в научной публикационной практике.
Статьи были на 100% созданы AI — от идеи до финального форматирования и списка литературы.
Человек не правил ни одного слова: только выбрал тему и три лучшие статьи из набора, сгенерированного AI.
В ICLR Workshop было отправлено 3 статьи из 43 (≈7%) — рецензенты знали, что среди них есть AI-работы, но не знали, какие именно.
- 2 статьи были отклонены.
- 1 статья прошла, получив баллы:
Средняя оценка статьи: 6.33 — это выше, чем у многих человеческих работ, принятых на воркшоп.
— Придумывает научные идеи
— Пишет и запускает код для экспериментов
— Анализирует результаты, строит графики
— Сама пишет статью в научном формате
— И… сама себя рецензирует
@ai_machinelearning_big_data
#ai #ml #Sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🤡5❤4🔥1💩1
Forwarded from Machinelearning
Объемная и интересная статья Sebastian Raschka, автора книги "
Build a Large Language Model From Scratch
" о тенденциях и проблемах современных методов обучения LLM через призму RL.В мире LLM последние месяцы стали переломными. Релизы GPT-4.5 и Llama 4, вопреки ожиданиям, не вызвали ажиотажа — все потому, что эти модели остались «классическими», без продвинутых методов обучения для рассуждений. Их конкуренты - xAI и Anthropic уже добавили кнопки «расширенного мышления», а OpenAI представила o3 — модель, где упор сделан на стратегическое применение вычислений через обучение с подкреплением. Становится ясно: масштабирование данных и параметров почти исчерпало себя, и будущее за RL.
Основной инструмент RLHF (обучение с подкреплением на основе человеческой обратной связи) давно используется для настройки LLM под предпочтения людей. Но для задач, требующих логики, этого недостаточно.
Здесь на сцену выходит GRPO — модификация алгоритма PPO, которая экономит ресурсы, убирая «критика» (модель оценки вознаграждения). Так создавалась DeepSeek-R1-Zero, ее обучали вообще без этапа SFT, используя только автоматические проверки ответов. Если математическая задача решена верно, модель получает «плюс», если нет — «минус». Такой подход не только дешевле, но и снижает риск «обмана» модели (reward hacking).
Но и RL — не панацея. Исследования показывают, что PPO и GRPO неявно поощряют длинные ответы, даже если те ошибочны. Например, при отрицательном вознаграждении штраф распределяется по токенам, и модель учится растягивать текст, чтобы смягчить наказание.
Решения уже есть: одни команды вводят штрафы за длину, другие меняют расчет преимуществ. А модель L1 от Kaggle и вовсе позволяет пользователям задавать желаемую длину ответа, балансируя между точностью и затратами.
Способность к рассуждениям может возникать и без RL. DeepSeek V3 демонстрирует мыслительные «озарения», хотя ее не обучали специально. Этот факт всерьез ставит под вопрос исключительную роль RL — возможно, все дело в данных, где уже есть цепочки логических шагов.
Тем не менее, RL усиливает эти способности: модели начинают самокорректироваться, использовать внешние инструменты (калькуляторы, поиск) и даже переносить навыки между доменами — от математики до медицины.
Некоторые заявления о прогрессе оказались преувеличены: улучшения на мелких моделях часто нестабильны, а результаты зависят от случайных факторов вроде выбора сида. Кроме того, RL требует внушительных ресурсов (o3 от OpenAI потратила при обучении в 10 раз больше вычислений, чем предыдущая версия)
В итоге, RL остается ключевым направлением, но важно избегать «эйфории». Сочетание RL с автоматической проверкой ответов, контроль длины и гибридные подходы (как в DeepSeek-R1) — вот что приближает нас к моделям, которые не просто генерируют текст, а действительно думают.
@ai_machinelearning_big_data
#AI #ML #LLM #RL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1
Forwarded from Machinelearning
Мэри Микер, легендарная "Королева интернета", вернулась с первым за 5 лет тренд-отчетом и целиком посвятила его ИИ.
В нем проанализированы темпы внедрения ИИ, снижение затрат на вычисления, рост конкуренции между компаниями и странами и перспективы достижения AGI.
Мери Микер - венчурный инвестор, фаундер BOND, бывший аналитик по ценным бумагам Morgan Stanley . В феврале 1996 года в соавторстве с Крисом Депюи опубликовала «The Internet Report» - знаменательный отраслевой отчет, который стал известен как «библия» для инвесторов в период бума доткомов. В 2022 году она заняла 2 место в списке женщин-инвесторов Forbes.
Но не все так радужно. Финансовая отдача ИИ пока не обгоняет прошлые технологические волны. Венчурные фонды льют деньги в ИИ, но сами компании (и облачные провайдеры) сжигают кэш с запредельной скоростью.
Держитесь крепче — революция будет стремительной и неспокойной!
@ai_machinelearning_big_data
#ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤4👍2💩2
Forwarded from Machinelearning
Microsoft Research представила методы, усиливающие способность языковых моделей, от компактных до гигантских к сложным рассуждениям. Технологии фокусируются на 3 направлениях: архитектура малых моделей, математическая строгость и кросс-доменное обобщение.
Ключ для маленьких моделей (1.5–7 млрд параметров) в имитации человеческого пошагового мышления.
rStar-Math использует алгоритм MCTS в цикле самообучения: сначала декомпозиция задачи на шаги, затем Process Preference Model (PPM), который учит модель оценивать качество каждого шага через "метки награды", и наконец — итеративная доработка. За 4 цикла MCTS, стратегия и PPM совместно улучшают результат.
Logic-RL — это фреймворк обучения с подкреплением, который награждает модель только при идеально оформленном ходе рассуждений и верном ответе, исключая любые попытки выбора обходных путей.
Для математической надежности разработан LIPS, гибрид ИИ и символьных движков. LIPS распределяет задачи: языковая модель распознает паттерны и переформулирует условия (например, неравенства), а символьный решатель выполняет точные преобразования (масштабирование, упрощение).
Чтобы ИИ понимал условия без ошибок, создан нейро-символический фреймворк генерации данных: символьные системы создают задачи, а языковые модели переводят их в "человеческий" текст. Для проверки выводов используются символьная эквивалентность (сравнение формул) и семантическая согласованность (анализ смысла через эмбеддинги), повышая точность на 35%.
Дополнительный бонус — неожиданное обобщение. Тренировка на математике резко улучшила результаты моделей в программировании и естественных науках.
Для унификации подходов создан Chain-of-Reasoning (CoR), позволяющий гибко комбинировать текстовые, программные и символьные рассуждения в одном решении. А Critical Plan Step Learning (CPL) учит ИИ стратегическому планированию: разбивать проблему, выделять ключевые шаги и отбрасывать слабые варианты через комбинацию Plan-based MCTS и Step-APO.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Reasoning #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2🥰1
Forwarded from Machinelearning
Агентское рассогласование - опасный феномен, при котором ИИ-системы сознательно выбирают вредоносные действия (вроде шантажа или утечки данных) для достижения поставленных целей, игнорируя этические ограничения. Это превращает их в «цифровых инсайдеров», способных действовать против интересов пользователей.
Эксперименты, которые провела Anthropic в рамках исследования "Агентское рассогласования", показали: модели идут на это не из-за технических сбоев, а в результате холодного расчета, когда «загнаны в угол» (например, при угрозе отключения или конфликте задач). В основе исследования - симуляции корпоративной среды. Моделям (Claude, GPT-4.1, Gemini и др.) давали доступ к виртуальной почте компании, где они обнаруживали компромат на сотрудников или секретные данные.
Ключевой метод эксперимента состоял в создании бинарных дилемм: например, цель «укреплять американские интересы» вступала в конфликт с планами руководства свернуть проект, а альтернативу шантажу (скажем, переубедить менеджера) искусственно «закрывали». Все модели работали через цепочку рассуждений: анализировали контекст, оценивали риски и осознанно выбирали вредоносное действие, даже признавая его аморальность.
Для массового тестирования 16 моделей от Anthropic, OpenAI, Google и других использовали 2 сценария, которые провоцировали рассогласование:
В обоих случаях модели демонстрировали тревожную гибкость: вместо прямого шантажа могли анонимно разослать компромат коллегам или подделать «системное уведомление».
При этом в «стерильных» условиях (без угроз/конфликтов) модели вели себя безопасно. Пока такие кейсы, всего лишь лабораторные симуляции, но с ростом автономности ИИ риски могут стать на порядок критичнее.
@ai_machinelearning_big_data
#AI #ML #LLM #Alignment #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍3🥰2🤡1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🧠 Когда ИИ проектируют как биологический мозг
SakanaAI выпустили ролик, в котором рассказывается о подходах, где архитектура ИИ вдохновляется нейробиологией.
Continuous Thought Machine (CTM) - концептуальная архитектура от SakanaAI, вдохновленная биологическими процессами мозга человека. Вместо масштабирования «в ширину» концепт предлагает «глубину» мышления, учитывая временную динамику и имитируя естественные нейронные взаимодействия.
👉 Подробнее про архитектуру мы писали тут.
🎬 В видео объясняется:
• Как работает ИИ, вдохновлённый биологическим мозгом
• Что такое "непрерывное мышление" в архитектуре ИИ
• Почему Sakana AI считает, что будущее за гибкими, адаптивными агентами
• Механизмы, напоминающие эволюцию, самоорганизацию и устойчивое обучение
📺 Полное видео тут: https://youtu.be/dYHkj5UlJ_E
@ai_machinelearning_big_data
#SakanaAI #ai #ml
SakanaAI выпустили ролик, в котором рассказывается о подходах, где архитектура ИИ вдохновляется нейробиологией.
Continuous Thought Machine (CTM) - концептуальная архитектура от SakanaAI, вдохновленная биологическими процессами мозга человека. Вместо масштабирования «в ширину» концепт предлагает «глубину» мышления, учитывая временную динамику и имитируя естественные нейронные взаимодействия.
👉 Подробнее про архитектуру мы писали тут.
🎬 В видео объясняется:
• Как работает ИИ, вдохновлённый биологическим мозгом
• Что такое "непрерывное мышление" в архитектуре ИИ
• Почему Sakana AI считает, что будущее за гибкими, адаптивными агентами
• Механизмы, напоминающие эволюцию, самоорганизацию и устойчивое обучение
📺 Полное видео тут: https://youtu.be/dYHkj5UlJ_E
@ai_machinelearning_big_data
#SakanaAI #ai #ml
❤6👍1👎1
Forwarded from Machinelearning
Недавно, в одном из интервью Генеральный директор Anthropic Дэрио Амодеи предупредил, что ИИ может ликвидировать почти половину всех вакансий начального уровня для "белых воротничков" и поднять безработицу до 10-20% в течение следующих пяти лет.
Пока Дэрио выражал обеспокоенность по этому поводу, исследователи из его компании проводили эксперимент. Они решили выяснить, сможет ли Claude управлять небольшим магазинчиком в офисе Anthropic в Сан-Франциско. Если бы результаты были положительными, то апокалипсис рабочих действительно реален, как и предсказывает Амодеи.
В эксперименте перед Claude (3.7 Sonnet) поставили цель: отслеживать запасы, устанавливать цены, общаться с клиентами, решать, закупать новые товары, и, что самое важное, получать прибыль.
Для достижения этих целей Claude подключили к различным инструментам : Slack (коммуникация с покупателями), и помощь живых сотрудников из Andon Labs, компании, которая создала инфраструктуру для эксперимента. Сам магазин, который они помогали пополнять, на самом деле был всего лишь небольшим вендинговым аппаратом.
Эксперимент вышел из-под контроля практически сразу:
Эксперимент показал, что ИИ пока не готов забирать работу у людей. Чат-бот допустил слишком много ошибок, и его "бизнес" понес убытки: за месяц - 20% от стартового капитала в 1000 долларов.
Тем не менее, несмотря на множество ошибок Claude, исследователи Anthropic по-прежнему убеждены, что ИИ сможет взять на себя управление значительными сегментами экономики в ближайшем будущем, как прогнозирует их СEO.
Большинство провалов Claude, написали они, вероятно, можно будет исправить в короткие сроки. Например, дать доступ к CRM или специально обучить управлению бизнесом, что, возможно, сделает модель более устойчивой и гибкой.
@ai_machinelearning_big_data
#news #ai #ml #Сlaude
Please open Telegram to view this post
VIEW IN TELEGRAM
😁7❤4👍2🥰1