Interview of Ilya Sutskver
TLDR: thereotically #chatgpt can learn a lot and eventually converge to #AGI given the proper dataset and help of #RLHF (Reinforcement Learning from Human Feedback).
Video provides valuable insights into the current state and future of artificial intelligence. The conversation explores the progress of AI, its limitations, and the importance of reinforcement learning and ethics in AI development. Ilia also discusses the potential benefits of AI in democracy and its potential role in helping humans manage society. This interview offers a comprehensive and thought-provoking overview of the AI landscape, making it a must-watch for anyone interested in understanding the impact of AI on our lives and the world at large.
Youtube: https://www.youtube.com/watch?v=SjhIlw3Iffs
#youtube #Sutskever #OpenAI #GPTEditor
TLDR: thereotically #chatgpt can learn a lot and eventually converge to #AGI given the proper dataset and help of #RLHF (Reinforcement Learning from Human Feedback).
Video provides valuable insights into the current state and future of artificial intelligence. The conversation explores the progress of AI, its limitations, and the importance of reinforcement learning and ethics in AI development. Ilia also discusses the potential benefits of AI in democracy and its potential role in helping humans manage society. This interview offers a comprehensive and thought-provoking overview of the AI landscape, making it a must-watch for anyone interested in understanding the impact of AI on our lives and the world at large.
Youtube: https://www.youtube.com/watch?v=SjhIlw3Iffs
#youtube #Sutskever #OpenAI #GPTEditor
YouTube
The Mastermind Behind GPT-4 and the Future of AI | Ilya Sutskever
In this podcast episode, Ilya Sutskever, the co-founder and chief scientist at OpenAI, discusses his vision for the future of artificial intelligence (AI), including large language models like GPT-4.
Sutskever starts by explaining the importance of AI research…
Sutskever starts by explaining the importance of AI research…
👍15🔥7👎1
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback
Reinforcement Learning from Human Feedback (RLHF), the key method for fine-tuning large language models (LLMs), is placed under the microscope in this paper. While recognizing RLHF's central role in aligning AI systems with human goals, the authors boldly tackle the uncharted territory of its flaws and limitations. They not only dissect open problems and the core challenges but also map out pioneering techniques to augment RLHF. This insightful work culminates in proposing practical standards for societal oversight, marking a critical step towards a multi-dimensional and responsible approach to the future of safer AI systems.
Paper link: https://arxiv.org/abs/2307.15217
A detailed unofficial overview of the paper:
https://andlukyane.com/blog/paper-review-rlhf-overview
#deeplearning #nlp #llm #rlhf
Reinforcement Learning from Human Feedback (RLHF), the key method for fine-tuning large language models (LLMs), is placed under the microscope in this paper. While recognizing RLHF's central role in aligning AI systems with human goals, the authors boldly tackle the uncharted territory of its flaws and limitations. They not only dissect open problems and the core challenges but also map out pioneering techniques to augment RLHF. This insightful work culminates in proposing practical standards for societal oversight, marking a critical step towards a multi-dimensional and responsible approach to the future of safer AI systems.
Paper link: https://arxiv.org/abs/2307.15217
A detailed unofficial overview of the paper:
https://andlukyane.com/blog/paper-review-rlhf-overview
#deeplearning #nlp #llm #rlhf
❤5👍4🔥1🤓1
Forwarded from Machine learning Interview
🚀 Релиз от NVIDIA: Llama-Nemotron-Ultra 253B!
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
Llama-Nemotron-Ultra — модель с 253B параметрами, специально заточенная под задачи reasoning .
📦 Что внутри:
- LLaMA 405B, радикально преобразованная с помощью NAS pruning
- Пост-тренинг с фокусом на reasoning: SFT + RL
- Вычисления в FP8 для производительности без потери качества
- Open weights + открытые данные
🧠 Подходит для сложных задач рассуждения, настройки под кастомные пайплайны и исследований в области AGI.
🔗 Попробовать: https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1
#LLM #NVIDIA #OpenWeights #Reasoning #RLHF #FP8 #AIresearch #HuggingFace
@machinelearning_interview - подписаться
👍7🔥7❤3
Forwarded from Machine learning Interview
🧠 One RL to See Them All
MiniMax-AI представили Orsta-7B и Orsta-32B — мощные мультимодальные модели, обученные по новой методике V-Triune:
🔧 V-Triune объединяет:
• форматирование данных на уровне задач,
• расчет награды через кастомные верификаторы,
• мониторинг метрик по источникам.
💥 Результаты?
📈 Orsta-32B даёт **+14.1% прирост** на MEGA-Bench Core по сравнению с QwenVL-2.5!
От OCR и распознавания объектов до визуального рассуждения и математических задач — одна RL-схема покрывает всё.
📦 Модели уже доступны:
- huggingface.co/collections/One-RL-to-See-Them-All/one-rl-to-see-them-all-6833d27abce23898b2f9815a
- github.com/MiniMax-AI/One-RL-to-See-Them-All
Открытая, мощная, готовая к запуску.
#AI #Orsta #MiniMax #VisionLanguage #RLHF #VLM #Multimodal #OpenSource #HuggingFace
MiniMax-AI представили Orsta-7B и Orsta-32B — мощные мультимодальные модели, обученные по новой методике V-Triune:
🔧 V-Triune объединяет:
• форматирование данных на уровне задач,
• расчет награды через кастомные верификаторы,
• мониторинг метрик по источникам.
💥 Результаты?
📈 Orsta-32B даёт **+14.1% прирост** на MEGA-Bench Core по сравнению с QwenVL-2.5!
От OCR и распознавания объектов до визуального рассуждения и математических задач — одна RL-схема покрывает всё.
📦 Модели уже доступны:
- huggingface.co/collections/One-RL-to-See-Them-All/one-rl-to-see-them-all-6833d27abce23898b2f9815a
- github.com/MiniMax-AI/One-RL-to-See-Them-All
Открытая, мощная, готовая к запуску.
#AI #Orsta #MiniMax #VisionLanguage #RLHF #VLM #Multimodal #OpenSource #HuggingFace
👍4❤1🔥1
Forwarded from Китай.AI
🛡️ CN-AI-ARSENAL | Технологический арсенал Китая
🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba
Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.
🔍 Ключевые возможности:
• Поддержка моделей до
• Встроенные алгоритмы:
• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)
💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов
🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward
GitHub | Технический отчет
#КитайскийИИ #КитайAI #RLHF #Alibaba
🚀 ROLL: новый фреймворк для масштабируемого обучения с подкреплением от Alibaba
Китайский гигант Alibaba представил ROLL — инновационный фреймворк для RL-тренировки больших языковых моделей (LLM), который уже собрал 1000+ звезд на GitHub. Это решение радикально упрощает процесс обучения с подкреплением, делая его доступным даже для небольших команд.
🔍 Ключевые возможности:
• Поддержка моделей до
600B+ параметров
• Встроенные алгоритмы:
PPO
, GRPO
, Reinforce++
• Интеграция с vLLM, DeepSpeed, Megatron-Core
• Визуализация через wandb/tensorboard
• Ускорение обучения в 2.3-2.9 раза (тесты на Qwen-7B/30B)
💡 Для кого создан ROLL?
1) Инженеры: распределенные вычисления на тысячах GPU
2) Разработчики: гибкая настройка reward-функций
3) Исследователи: быстрый прототипинг новых алгоритмов
🌟 Технические детали:
- Rollout Scheduler для управления жизненным циклом samples
- AutoDeviceMapping для оптимизации ресурсов
- Параллельные стратегии обучения (5D-параллелизм)
- Асинхронные вычисления reward
GitHub | Технический отчет
#КитайскийИИ #КитайAI #RLHF #Alibaba
GitHub
GitHub - alibaba/ROLL: An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models
An Efficient and User-Friendly Scaling Library for Reinforcement Learning with Large Language Models - alibaba/ROLL
❤2
Forwarded from Техножнец
🌋 RLHF И GRPO: КОГДА "РЕВОЛЮЦИЯ" ОКАЗАЛАСЬ ПЕРЕОЦЕНКОЙ СТАРЫХ СПОСОБНОСТЕЙ 🌋
Привет, синтеты! 👋
Последние недели стали жестоким отрезвлением для энтузиастов reinforcement learning в языковых моделях. То, что казалось прорывом в рассуждениях ИИ, оказалось просто более эффективным способом извлечения уже существующих знаний. Разбираем крах иллюзий!
Начало 2025: DeepSeek R1 с GRPO показал "aha moment" — модель самостоятельно развивала стратегии решения задач!
Апрель 2025: Исследователи доказали — никакого "момента озарения" не было. Модель уже умела всё это до RLVR-тренировки.
🤖 ЧТО ЭТО ОЗНАЧАЕТ?
#RLHF #GRPO #DeepSeekR1 #AIReality #MachineLearning
Исследования по теме:
Обучение языковых моделей следованию инструкциям с человеческой обратной связью: https://arxiv.org/abs/2203.02155
DeepSeek-R1 (Момент озарения): https://arxiv.org/abs/2501.12948
Понимание R1-подобного обучения: критический взгляд: https://arxiv.org/pdf/2503.20783
Действительно ли обучение с подкреплением стимулирует способности к рассуждению в LLM за пределами базовой модели?: https://arxiv.org/abs/2504.13837
Обучение с подкреплением дообучает малые подсети в больших языковых моделях: https://arxiv.org/abs/2505.11711
Ложные награды: переосмысление обучающих сигналов в RLVR: https://arxiv.org/abs/2506.10947
🌋
Привет, синтеты! 👋
Последние недели стали жестоким отрезвлением для энтузиастов reinforcement learning в языковых моделях. То, что казалось прорывом в рассуждениях ИИ, оказалось просто более эффективным способом извлечения уже существующих знаний. Разбираем крах иллюзий!
🎭 ОТ ЭЙФОРИИ К РЕАЛЬНОСТИ
Начало 2025: DeepSeek R1 с GRPO показал "aha moment" — модель самостоятельно развивала стратегии решения задач!
Апрель 2025: Исследователи доказали — никакого "момента озарения" не было. Модель уже умела всё это до RLVR-тренировки.
🔬 АНАТОМИЯ РАЗОЧАРОВАНИЯ
RLHF vs RLVR vs GRPO:
RLHF — обучение через человеческую обратную связь (классика)
RLVR — обучение через проверяемые награды (математика/код)
GRPO — групповая оптимизация политики (новинка от DeepSeek)
Все они работают по одному принципу: усиливают то, что модель уже знает, но НЕ создают новые знания.
💣 СЕНСАЦИОННЫЕ ОТКРЫТИЯ
"Spurious Rewards" — бомба!
Исследователи дали Qwen2.5 СЛУЧАЙНЫЕ награды за математику. Результат? Улучшение на 21%! Даже награждение НЕПРАВИЛЬНЫХ ответов давало почти тот же эффект, что и правильных.
86% параметров DeepSeek R1 НЕ ОБНОВЛЯЛИСЬ
Во время RL-тренировки изменилось меньше 14% весов модели. "Революционное обучение" затронуло крошечную часть нейросети.
Длинные ответы ≠ лучшие рассуждения
Рост качества от длинных chain-of-thought не связан с улучшением логики. GRPO просто штрафует короткие неправильные ответы меньше, чем длинные неправильные.
🎯 ПРОБЛЕМА ГЕНЕРАЛИЗАЦИИ
Большинство "прорывных" RLVR-исследований тестировались на моделях Qwen. Оказалось:
Qwen уникально хороши в коде и "думают" на Python
RL просто усиливает эту особенность
На Llama3 те же методы работают хуже или вредят
Принуждение Llama3 к Python-стилю рассуждений УБИВАЕТ точность на 23-28%
🤖 ЧТО ЭТО ОЗНАЧАЕТ?
Реальность GRPO и RLVR:
✅ Эффективно извлекают скрытые способности
✅ Улучшают консистентность ответов
✅ Работают как "точная настройка" распределения вероятностей
❌ НЕ создают новые типы рассуждений
❌ НЕ расширяют границы знаний модели
❌ НЕ генерализуются между архитектурами
🔮 ПЕРСПЕКТИВЫ
Дистилляция побеждает RL: 7B модель, обученная на данных DeepSeek R1, решает задачи, которые базовая модель не могла. Передача знаний работает, усиление — нет.
Эра пре-тренинга жива: Пока RL только перемешивает существующие знания, создание новых остается за классическим обучением на больших корпусах.
💭 ИТОГ ДЛЯ СИНТЕТОВ
RLHF, RLVR и GRPO — не магия, а продвинутая калибровка. Они делают модели более предсказуемыми и полезными, но не умнее. "Aha moment" оказался "уже знал, но не показывал" moment.
Урок: Скептически относитесь к громким заявлениям о "новых типах рассуждений". Чаще всего это улучшенная презентация старых способностей.
#RLHF #GRPO #DeepSeekR1 #AIReality #MachineLearning
Исследования по теме:
Обучение языковых моделей следованию инструкциям с человеческой обратной связью: https://arxiv.org/abs/2203.02155
DeepSeek-R1 (Момент озарения): https://arxiv.org/abs/2501.12948
Понимание R1-подобного обучения: критический взгляд: https://arxiv.org/pdf/2503.20783
Действительно ли обучение с подкреплением стимулирует способности к рассуждению в LLM за пределами базовой модели?: https://arxiv.org/abs/2504.13837
Обучение с подкреплением дообучает малые подсети в больших языковых моделях: https://arxiv.org/abs/2505.11711
Ложные награды: переосмысление обучающих сигналов в RLVR: https://arxiv.org/abs/2506.10947
🌋
👏7👍5❤3🌚3