Сиолошная – Telegram

Сиолошная

57.8K subscribers

1.21K photos

205 videos

1 file

1.35K links

Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://yangx.top/+i_XzLucdtRJlYWUy

About

Blog

Apps

Platform

Сиолошная

57.8K subscribers

Сиолошная

Forwarded from Техасский Вестник

This media is not supported in your browser

VIEW IN TELEGRAM

Проклятье Starship V2.

Прототип S34 снова был потерян за 20 секунд до выхода на орбиту. Есть фундаментальная проблема с конструкцией этого блока кораблей. Пока не будем спекулировать о точных причинах, они могут повторяться (речь про гармонические колебания).

Главному инженеру пора начать наводить порядок дома.

24.8K views23:46

Сиолошная

R1 is not on par with o1, and the difference is qualitative, not quantitative

Почти сразу после выхода DeepSeek R1 я писал, что не думаю, что модель на уровне с рассуждающей моделью OpenAI o1. При этом я считал и считаю, что а) в некоторых доменах качество действительно может быть практически одинаковым б) в конкретных задачах модель может быть не хуже или даже лучше o1.

Ребята из Толоки пришли к такому же выводу, основываясь на агрегации результатов замеров на разных бенчмарках, в том числе своих, выпущенных совсем недавно, и с упором на новизну (например, U-MATH — набор математических задач, которые до этого не были нигде опубликованы). Дальше идёт перевод цитат из текста:

— Распространенно мнение, основанное на замерах самих же DeepSeek, что модель более или менее равна o1. R1 немного лучше разбирается в математике и программировании и имеет более свободный и творческий стиль письма, в то время как o1 немного лучше разбирается в фактах, отвечает на вопросы и следует инструкциям, а его стиль письма фокусируется на тщательной структуре, грамматике и логике.

— Тесты на задачах из длинного хвоста распределения показывают разницу. Как только мы сходим с проторенного пути [популярных бенчмарков], альтернативные тесты рисуют иную картину. Наша исследовательская группа исследовала оценки в нишевых поддоменах и необычных доменах и отметила количественные и качественные пробелы в производительности модели.

— U-MATH был разработан именно для того, чтобы представить новые необычные задачи по математике из университетов. Согласно нашей оценке U-MATH, R1 ничем не лучше o1 в — фактически, он на одном уровне с o1-mini.

— Превосходная обобщаемость и надежность выделяют OpenAI o1 в собственную лигу. Бенчмарки по задачам из длинного хвоста распределения нетрадиционны, они проверяют новизну и надежность. Итак, вот наше мнение: o1 имеет большую обобщенность и надежность, чем R1. [конкретные цифры и задачи см. по первой ссылке]

— Недавнее проведённый тест на галлюцинации Vectara показывает, что уровень галлюцинаций у R1 составляет 14,3%, тогда как у o1 и o1-mini он составляет всего 2,4% и 1,4% соответственно.

— также авторы сравнивали результаты на AIME '25 (про который я тоже писал), где видно, что на «новых свежих» задачах o1 почти не просела по качеству, а вот R1 упала.

===

Вдогонку к этому очень схожий по интенту пост от METR, занимающихся оценкой агентских навыков моделей. Они проверли два замера, вот выжимка:

— «R1 работает намного хуже, чем o1-preview или Claude 3.5 Sonnet. Она на одном уровне с GPT-4o»

— «Deepseek-R1 показал себя немного лучше, чем o1-preview, и находится примерно на уровне передовых моделей сентября 2024 года»

И это всё ещё не отходя от задач на английском языке! На других, уверен, разница ещё заметнее.

===

Ещё я пару раз просил в разных чатах скинуть бенчмарки, на которых R1 прям существенно лучше o1, и таких нашлось всего 2, ну может 3 с натяжкой (один из них на реддите от любителя, на своих задачах). А замеров, где o1 >> R1 — горка с присыпкой.

===

Означает ли, что это плохая модель? Нет, она очень способная, и с учётом её цены и бесплатного пользования на фоне GPT-4o это очень хорошая модель. Обратите внимание, что речь про «модель», а не «сервис или услугу» — DeepSeek до сих пор доступен с перебоями, то и дело не отвечает на запросы, что затрудняет его использование.

И если вы готовы платить $20 за подписку, или тем более вложиться в o1 pro — история прохладная.

По слухам, DeepSeek готовят версию R2 к маю. Посмотрим, что будет там. Но сразу говорю, кажется, очевидную вещь — если по каким-то 3-4 бенчмаркам модель будет на уровне с o3 от декабря '24, то фактически это почти наверняка означает то же самое: в среднем модель хуже.

27.8K viewsedited 14:57

Сиолошная

Что пишем дальше

Final Results

Фоллоу-ап поста выше про метрики R1 (в комментариях интересный апдейт)

Разбор статьи про обучение VLM ризонингу

Разбор статьи про возникновение паттернов рассуждений во время тренировки

Разбор блога OpenAI про безопасность систем на ближайшее будущее

Разбор статьи OpenAI про контроль цепочек рассуждений моделей при тренировки (и на что это влияет)

1.5K voters19.3K views20:08

Сиолошная

Cognitive Behaviors that Enable Self-Improving Reasoners

Когда вышла o1 от OpenAI, то хоть технических деталей и было мало, но сотрудники, включая Noam Brown, говорили, что там всё просто. Когда вышла R1 от DeepSeek, то это подтвердилось: просто (нифига не просто) берёшь модель, набор пар «задача — ответ», и запускаешь процедуру генерации сотен-тысяч цепочек рассуждений, награждая модель за те из них, которые приводят к правильным ответам.

Работает это за счёт того, что модель нет-нет, да иногда и выдаст что-то правильное. Те рассуждения, которые привели к этому «правильно» закрепляются, усиляются (из-за метод и называется Reinforcement Learning). По сути вся тренировка сводится к тому, чтобы найти те наборы фраз, которые у модели ассоциируются с определёнными паттернами, и заставляют её им следовать.

В воздухе витал вопрос — идея достаточно очевидная, почему до этого её никто не пробовал? Или почему ни у кого не получалось? (спойлер: люди много раз пробовали такое же или нечто очень схожее)

Сегодняшняя статья пытается копнуть в эту тему и сравнить обучение двух разных базовых моделей одинакового размера, Qwen-2.5-3B и LLAMA-3B, рассуждениям для решения математической игры Countdown. Эта игра, в которой участнику даются 3 или 4 цифры, а также целевой результат, а он должен расставить скобки и знаки +, −, ×, ÷. Например, если вам говорят «25, 30, 3, 4» и «32», то ответ может выглядеть так: (30 − 25 + 3) × 4. Задача хороша тем, что в ней можно применять паттерны рассуждений (прямо как в сложных серьёзных задачах олимпиадного уровня) — и их авторы выделяют 4 штуки:

— (1) Возврат назад или пересмотр подходов при обнаружении ошибок (например, если модель пишет «Этот подход не сработает, потому что...»)
— (2) Перепроверка промежуточных и финальных результатов («Давайте проверим этот результат с помощью...»)
— (3) Постановка подцелей, когда сложная проблема разбивается на меньшие шаги («Чтобы решить это, нам сначала нужно...»)
— (4) Рассуждение от обратного, когда решение строится в обратном направлении от желаемого результата («Чтобы достичь цели 32, нам нужно число, делящееся на...»)

Значит, авторы берут две модели, запускают на них тренировку почти как у o1/R1, только с задачами по типу Countdown, и сохраняют промежуточные модели по ходу обучения. За 250 шагов Qwen доходит до 60% правильных ответов, а LLAMA до 30% — очень большая разница.

18.7K views22:20

Сиолошная

Затем авторы берут все промежуточные модели и генерируют решения ими. Все решения пропускаются через GPT-4o-mini, которой в промпте дали задачу классифицировать рассуждения по четырём указанным выше паттернам (и ещё примеров насыпали). Модель выдаёт предсказания для каждой цепочки рассуждений, и те агрегируются, чтобы считать, как часто то или иное поведение проявляется по ходу тренировки каждой из Small Language Models (крохи, по 3 миллиарда параметров).

И вот тут-то и обнаруживается разница — у Qwen при переходе от 20 к 30 шагам обучения что-то щёлкает, и эти паттерны начинают проявляться очень часто. Вернее, только 2 паттерна — верификация (перепроверка результатов) и пересмотр подходов при обнаружении ошибок (backtraking).

У LLAMA же по ходу всей тренировки почти по нулям, только маленький горбик в самом начале есть. А так как паттерны рассуждений не проявляются, то правильные ответы появляются реже -> обучение хуже. И сами паттерны не закрепляются.

Значит, в самих моделях с самого начала есть разница. Поэтому взяли их, сгенерировали решения, снова классифицировали — и у Qwen даже без всякого дообучения под игру уже в 62% цепочек рассуждений есть само-проверка (против 10% у LLAMA-3B). (правда эти цифры не бьются с первым графиком, где считали частоту встречания паттернов, но я не понял почему).

Ещё взяли LLAMA побольше, на 70B, и она чаще сама по себе применяет паттерны рассуждений, чем маленькая модель, но всё ещё реже, чем Qwen-3B. Это говорит о двух вещах:
1) Qwen почти наверняка этому отдельно учили
2) поскольку обучение с подкреплением может лишь усиливать поведение, проявляющееся в успешных траекториях, — делая присутствие этих паттернов предпосылкой для эффективного обучения — чем качественнее модель, тем лучше будет результат. (Тут вспоминаем, что GPT-4.5 сама по себе иногда обходит некоторые рассуждающие модели, и знает/читала кучу всего, и скорее всего тренировалась на синтетических цепочках рассуждений)

17.5K views22:20

Сиолошная

И ещё провели пару экспериментов с предварительным дообучением LLAMA 3B на данных, содержащих примеры всех 4 паттернов рассуждений, чтобы показать, что если уже из такого состояния начинать RL-тренировку игре в Countdown, то модель догонит по финальному качеству Qwen.

Первый эксперимент:
нагенерировали синтетические решения для Countdown через Claude Sonnet 3.6, при этом дали ей в промпт все 4 паттерна рассуждений и просили какие-то из них не использовать, или использовать только 1 или 2 конкретных, ну и все вместе. Качество вышло не очень — несмотря на то, что модель очень хорошо слушалась инструкций, и если её просили что-то включить в рассуждения, то она это делала органично, сам по себе Sonnet 3.6 выдал лишь 45% качества.

То есть больше половины цепочек рассуждений были с ошибками. И тренировка на них... принесла улучшения до уровня Qwen! То есть важнее именно показать, что такие паттерны рассуждений есть, и как их примерно применять, но не обязатльно, чтобы примеры были супер-качественные. (что не означает, что их не нужно фильтровать — замера с очисткой авторы не делали, но думаю, что качество могло бы подрасти)

Второй эксперимент:
взяли датасеты OpenWebMath и FineMath (задача + решение + ответ), выбрали из них 200 тысяч случайных примеров, прогнали через Qwen-2.5-32b и попросили определить, какие из паттернов рассуждений встречаются в решениях. Ожидаемо, все методы, кроме выделения подцелей, достаточно редки — в 1 документе из 50.

Получается, теперь все задачи разделены на 2 типа: те, у которых в решении есть паттерны рассуждений, и те, у которых их нет. Из этих наборов сделали два датасета одинакового размера для дообучения LLAMA, только ещё и решения переписали в виде рассказа от первого лица (это же цепочки рассуждений), но с обязательным сохранением паттернов — тут тоже помогла LLM.

Обучили 2 модели, затем запустили RL на игре в Countdown — и увидели разницу. Само по себе обучение на математике, даже без паттернов, уже повысило качество. Но ещё больше оно приросло именно от обучения на примерах, где так или иначе проявлялся как минимум один из вышеупомянутых способов рассуждения. Это отражено на картинке слева.

Очень жаль, что не сделали обратного эксперимента, где сначала обучали на Countdown, а затем замеряли качество на математических задачах.

===

А ответ на изначальный вопрос, кажется, такой: раньше модели были глупее, и они не достигали какой-то критической массы, после которого запуск процедуры RL-тренировки приводил к клёвым результатам. Сейчас такие данные добавляют на одном из последних этапов подготовки модели, поэтому оно уже зашито в модель, и остаётся только начать чаще и к месту использовать.

21.2K views22:20

Сиолошная

OpenAI представили на стриме 3 новых инструмента для разработчиков (остальным не особо интересно):
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.

Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).

Вот и цены:
— Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас).
— Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
— Ну а цена на поиск зависит от настройки «длина контекста» (видимо, сколько ссылок из поисковой выдачи попадут в контекст), и для старшей модели цена $30-$50 за тысячу вызовов.

А в 2026м удалят API Assistants (потому что инструменты придут им на смену).

29.8K views17:06

Сиолошная

Please open Telegram to view this post

VIEW IN TELEGRAM

26.5K viewsedited 08:13

Сиолошная

В Google AI Studio можно БЕС ПЛАТ НО попробовать новую фичу: нативная генерация изображений той же моделью, что и обрабатывает ваш текст. То самое, что показали OpenAI ещё в мае '24-го (но так и не выпустили, хотя обновления приложений/сайта подсказывают, что скоро должны).

Модель И видит вашу картинку, И рисует сама новую, без вызова отдельной модели, занимающейся генерацией. Это позволяет ей делать попиксельную копию, внося нужные изменения — смотрите примеры. И да, можно загрузить СВОЮ картинку, и после этого просить её перерисовать — так я сделал с крестиками-ноликами.

Можно придумать много всякого крутого, жду ваших креативов в комментариях!

Попробовать тут: https://aistudio.google.com/prompts/new_chat
(справа нужно выбрать модель «Gemini 2.0 Flash Experimental»)

31.2K views15:10

Сиолошная

Сиолошная

В Google AI Studio можно БЕС ПЛАТ НО попробовать новую фичу: нативная генерация изображений той же моделью, что и обрабатывает ваш текст. То самое, что показали OpenAI ещё в мае '24-го (но так и не выпустили, хотя обновления приложений/сайта подсказывают,…

Наконец-то могу почувствовать себя Сталиным!

23.6K views15:28

Сиолошная

Forwarded from Запрети мне псевдолейблить

24.5K views15:34

Сиолошная

Паша @durov_russia ну жёваный крот, почини телегу, почему у меня пропадают а) драфты сообщений б) УЖЕ ДАЖЕ ДРАФТЫ ПРАВОК В СООБЩЕНИЕ ПРОПАДАЮТ, это как вообще?

Такого не случалось последние полтора года, пофиксите свою хрень а, ну калит уже

21.5K views16:34

Сиолошная

В феврале президент США подписал приказ о разработке AI Action Plan для поддержания и усиления доминирования Америки в области ИИ. В том же месяце Управление по технологиям и науке выпустило призыв к сбору мнений всех желающих. Среди прочих, свою позицию высказали Anthropic и OpenAI. Ниже — краткая сводка их предложений.

Документ Anthropic:
— должна появиться федеральная программа по постройке электростанций суммарным объемом 50 ГигаВатт энергии к 2027-му году (!) конкретно под индустрию ИИ. Для справки, суммарно в США среднее потребление порядка 440 ГВт (хотя есть запас производить сильно больше), а Нью Йорк (город, не штат) потребляет в среднем 6 ГВт (пиковое, если правильно помню, около 15).
— сейчас продажа самых мощных видеокарт H100/B100 Китаю запрещена, но можно продавать урезанные версии, например, H20. Anthropic предлагают запретить и их, так ещё и заключить договорённости с другими странами, чтобы они следили за контрабандой (перепродажей Китаю из «дружественных стран»)
— выявить части работы, в которые уже можно встроить AI, и начать это делать (улучшение процесса налогообложения, здравоохранение, итд — в основном для обработки документов). Вдобавок, нужно систематически внедрять ИИ-ассистентов в рабочие процессы
— повысить кибербезопасность в передовых лабораториях за счет обмена опытом с соотв. агентствами и сотрудничества с Five Eyes. Я так понял ещё должна появиться процедура допуска к той или иной информаици касательно разработки моделей
— создать федеральную инфраструктуру тестирования, чтобы развить возможности правительства США по быстрой оценке моделей ИИ с точки зрения угроз национальной безопасности
— осуществлять мониторинг экономического воздействия ИИ (что где используется и какие результаты даёт — позволит прикинуть последствия для налогообложения и построить модели занятости на будущее)

Документ OpenAI:
— напрямую связывают добросовестное использование (копирайт) данных с национальной безопасностью и заявляют, что если Китай продолжит иметь свободный доступ к данным, а американские компании останутся без доступа к ним из-за судов и проволочек, то ИИ гонка фактически окончена
— предлагают запретить использование китайских моделей, если есть подозрения в том, что они могут нарушать приватность и создавать угрозу безопасности (читай «нельзя использовать DeepSeek по API, локально вроде ОК)
— запустить и поощрять инициативы с крупными капиталовложениями в ИИ-инфраструктуру, например, приглашая Суверенные фонды или создавая экономические зоны с ускоренным процессом получения одобрений
— модернизировать процессы аккредитации для федеральных закупок, чтобы ИИ-инструменты быстрее и легче проходили (особенно новые итерации/модели, когда старое уже используется — чтоб не с нуля каждый раз)
— ну и кроме прочего тоже говорят про экспортные ограничения для Китая + расширение энергосети и даже запуск National Transmission Highway Act для ускорения прокладывания линий связи/питания + внедрение AI в годсударственные структуры, а также более тесную коллаборацию с разными ведомствами для дообучения моделей на их данных (чтобы лучше работало при внедрении)

Следующая станция: национализация.

19.5K viewsedited 17:01

Сиолошная

Сиолошная

В феврале президент США подписал приказ о разработке AI Action Plan для поддержания и усиления доминирования Америки в области ИИ. В том же месяце Управление по технологиям и науке выпустило призыв к сбору мнений всех желающих. Среди прочих, свою позицию высказали…

Мир если бы все деньги дали OpenAI + Anthropic и они бы обучали свои модели на всех данных, которые собраны за сотни лет со всех граждан государством, и на них никто не мог бы подать в суд.

😁

Please open Telegram to view this post

VIEW IN TELEGRAM

19.3K viewsedited 17:02

Сиолошная

Сиолошная

Всем привет! Меня зовут Котенков Игорь, я работаю в сфере Data Science, конкретнее - в Machine Learning. Мне нравится делиться информацией и знаниями. Раньше я работал в AliExpress Россия на должности тимлида ML-команды (мой LinkedIn тык), до этого погрёб…

Please open Telegram to view this post

VIEW IN TELEGRAM

20.4K viewsedited 22:41

Сиолошная

Сегодня ровно 2 года с момента анонса и выхода GPT-4, и в честь этого мы с @cryptovalerii сделаем стрим. Будем обсуждать перспективы AI в программировании и не только, рассуждать о восприятии слов CEO Anthropic, якобы заявившего, что 90% кода уже через полгода будет писать AI, и прочие интересные штуки.

Стрим будет на канале Валеры, @cryptovalerii, приходите сегодня в 20:00 по МСК. На всё про всё уйдет примерно 40-50 минут, дольше задерживаться не планируем.

19.9K views15:05

Сиолошная

Сиолошная

Сегодня ровно 2 года с момента анонса и выхода GPT-4, и в честь этого мы с @cryptovalerii сделаем стрим. Будем обсуждать перспективы AI в программировании и не только, рассуждать о восприятии слов CEO Anthropic, якобы заявившего, что 90% кода уже через полгода…

Начинаем через 15 минут

19.2K views16:45