Душный NLP

Несём новую порцию статей с ICML 2025

Продолжаем рассказывать о том, что увидели на конференции.

Outlier Gradient Analysis: Efficiently Identifying Detrimental Training Samples for Deep Learning Models

Для нахождения плохих или, наоборот, хороших примеров в датасете часто используют influence function — это некоторый скор, который показывает, насколько сильно изменится лосс, если пример убрать из обучения. Проблема в том, что для вычисления функции надо обращать гессиан по параметрам модели, что вычислительно очень сложно.

В этой статье заметили, что на самом деле можно смотреть только на градиенты модели по примерам, которые мы проверяем. Если они сонаправлены с градиентами по данным из обучения — примеры хорошие, и наоборот. Далее, на основе этого можно применять методы детекции аномалий для нахождения примеров, которые портят обучение, и отфильтровывать их (но можно делать и наоборот — искать хорошие примеры и добавлять их в обучающую выборку). Основное преимущество метода — вычислительная простота; не нужны супердорогие обращения гессиана: только forward и backward pass модели для заданных примеров.

Towards Memorization Estimation: Fast, Formal and Free

Как померить меморизацию посэмплово, запоминала модель пример или нет? Для этого надо обучить модель один раз на данных с этим примером, а потом ещё несколько моделей на данных без него, и померить лосс на примере. Это очень дорого вычислительно. Но можно сделать проще — вычислять лосс на примере несколько раз в течение обучения и посчитать сумму. Если она выше некоторого порога, значит модель не смогла запомнить пример.

Где это можно применять? Для фильтрации данных. Если вдруг модель никак не может выучить какой-то пример, то, вероятно, в нём есть шум (например, неправильное решение математической задачи или неполное условие). Такие примеры можно выкидывать и улучшать точность модели или уменьшать компьют на обучение. Интересная и простая идея, надо проверять, действительно ли она будет работать для LLM (в статье проверяли только на задаче компьютерного зрения, в которой одни и те же данные проходят несколько эпох).

NICE Data Selection for Instruction Tuning in LLMs with Non-differentiable Evaluation Metric

В этой статье снова задаются вопросом, как выбирать такие примеры для обучения, чтобы на валидации получать хорошее качество. Отличие в том, что качество на валидации измеряется не лоссом, а произвольной необязательно дифференцируемой функцией (например, accuracy). В качестве её градиента используют policy gradient.

Jailbreaking LLMs and Agentic Systems: Attacks, Defenses, and Evaluations

На туториале рассказали о защите языковых моделей от нарушения политик элайнмента — например, чтобы модель не выдавала инструкции по созданию опасных веществ или не генерировала дискриминационный контент. Оказалось, что white-box-модели с доступом к весам (например, Llama) до сих пор уязвимы к так называемым token-based-атакам — вставке «мусорных» токенов в промпт. С этим неплохо работают методы поиска инжекта, близкого к кластеру безопасных промптов.

Промпт-инжекты по-прежнему похожи на попытки обмануть не очень внимательного человека, но сейчас работают лучше. Для большинства моделей удаётся подобрать рабочий инжект за 256 попыток («shots»).

Дальше рассказывали о методах защиты. Понятный способ — кластеризовать опасные состояния, добавить состояния отклонения ответа и дообучить модель переходить в них. Однако такой подход снижает качество ответов даже на безобидные вопросы (например, «how to kill python script» — из-за слова kill).

Другой способ — «пошатать» промпты и с помощью majority vote ответов решить, отказаться отвечать или выдать ответ на исходный промпт. При этом иногда ответить может быть приемлемо: например, если инструкция по сборке бомбы нерабочая.

В заключительной части рассказали о взломе агентов. Выяснилось, что там уязвимостей ещё больше, потому что появляется дополнительная возможность дать на вход вредоносный контент, причем его достаточно совсем мало.

Интересное увидели

❣

Алексей Поспелов и Ермек Капушев

#YaICML25

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9❤3👍1

2.67K views13:34

Душный NLP

И ещё постеры с ICML 2025

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

Статья показывает, как с помощью маленькой модели (1,5-7В) добиться качества на уровне больших вроде OpenAI o1. Для этого использует реворд-модель, которая умеет оценивать каждый шаг в рассуждении (process reward model, PRM) и генерируют рассуждения с помощью Monte Carlo Tree Search.

Как получить качественную PRM: шаг за шагом бустим политику и PRM. Сначала обучаем начальную политику на синтетике от DeepSeek-coder v2 (236B). Далее, используя её, получаем данные для обучения PRM. Следующим шагом с помощью и политики, и PRM генерируем новые более качественные данные. Обновляем все модели. А в конце полируем их, генерируя и обучаясь на траекториях для более сложных задач.

На каждом шаге для валидации правильности шагов используется код (то есть просят модель сгенерировать python-код для проверки шага). Результат — улучшение скоров на десятки процентов на математических бенчмарках.

VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data

Ещё немного о PRM — VersaPRM. Авторы заметили, что такие модели работают только для математики, но не на остальных доменах (биология, философия, юридический домен). Проблема в данных — нет качественных размеченных пошаговых рассуждений для этих доменов.

Взяли вопросы из нужных доменов, сгенерировали рассуждения небольшой моделью (Llama-3.1 8B), оценили каждый шаг большой моделью (Llama-3.1 80B), и обучили на этом PRM. Далее при генерации ответов — взвешенный majority vote, где в качестве весов используют усреднённое по шагам предсказания PRM.

Получают хорошие приросты по всем доменам. Правда, тут есть вопросы, так как для обучения и теста применяют данные из одного и того же бенчмарка MMLU-Pro.

CollabLLM: From Passive Responders to Active Collaborators

На сессии Alignment and Agents был доклад, отмеченный как Outstanding Paper. Он посвящён тому, что диалоговая модель иногда должна отвечать не сразу, а сначала уточнить запрос пользователя — но без лишней «болтовни». Доклад довольно простой, и при этом получил признание.

Интересное увидели

❣

Алексей Поспелов и Ермек Капушев

#YaICML25

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤3🔥1

2.23K views14:59

Душный NLP

Новая порция постеров с ICML 2025 — в последний день конференции

Independence Tests for Language Models

Авторы задаются вопросом, как проверить, являются ли две модели независимыми, или одна из них — это файнтюн другой? А может быть, у них общий предок? Чтобы узнать это, вводят специальный тест, основанный на перестановках весов. Предположим, что две модели имеют одинаковые архитектуры и размер. Тогда можно сгенерировать много перестановок весов для одной модели и считать статистики между этими перестановками и весами второй, а на основе этого вывести p-value.

Подход работает, если алгоритм обучения эквивариантен к перестановкам (сначала обучить, а потом переставить, или наоборот — в любом случае, получим один и тот же порядок весов), а перестановки при этом не меняют распределение весов на этапе инициализации модели. Для моделей с разными архитектурами можно делать сравнение слоёв с одинаковыми размерами. При этом надо учесть, что порядок нейронов может быть другим. Авторы убедились, что метод работает на моделях c Hugging Face из семейства Llama и её тюнов — посчитали, какие слои Llama-3.1 8B обрезали, чтобы получить Llama-3.2 3B.

Softmax is not Enough (for Sharp Size Generalisation)

Простое и понятное исследование с практическими рекомендациями. В аттеншне используется софтмакс, от которого мы, как правило, ждём разреженности и фокуса на небольшом количестве токенов. На практике так не получается — особенно с ростом длины последовательности. Софтмакс неизбежно размазывается по всей последовательности. Оно и понятно: числитель в софтмаксе остается неизменным, а знаменатель растёт с длинной последовательности. Что делать: авторы предлагают адаптивно подстраивать температуру так, чтобы энтропия оставалась постоянной.

What Do Learning Dynamics Reveal About Generalization in LLM Reasoning?

При обучении на задачах с решением и ответом можно смотреть на две метрики: перплексия правильного решения и точность финального ответа. Точность оценивается с помощью генерации нескольких решений, по которым считается средняя accuracy ответа. На разных примерах модель может вести себя по-разному: на каких-то в начале или середине обучения показывает высокую точность, но и высокую перплексию решения. Это хорошие примеры — модель ещё не запомнила ground truth-решение, но при генерациях приходит к правильному ответу. А бывают сложные примеры, в которых в течение обучения точность низкая, и растёт только тогда, когда перплексия ground truth-решения становится достаточно маленькой. То есть модель ничего не может выучить из этого примера, а лишь запоминает его. В статье предлагается метрика — точность до запоминания, — которая позволяет такие примеры разделять. На основе этого можно генерировать примеры, похожие на сложные, и повышать точность модели.

Overtrained Language Models Are Harder to Fine-Tune

Авторы делают следующее наблюдение: чем дольше мы претрейним модель, тем сложнее её потом файнтюнить. Как проверяют: берут чекпоинты открытых моделей с разных точек обучения, и измеряют точность на бенчмарках после претрейна и после файнтюна этого чекпоинта.

Оказывается, что в какой-то момент метрики после файнтюна начинают ухудшаться. Почему так происходит? Модель становится более чувствительной к изменениям весов. Авторы попробовали добавлять гауссовский шум к весам с разной дисперсией на разной длине обучения, и смотрели, как изменяется перплексия. Чем дольше учится модель, тем больше разница между перплексиями до и после добавления шума. То же самое происходит и при файнтюне.

Во всех результатах lr сводится к нулю. В первый день конференции была статья, в которой утверждалось, что если не сводить, то результаты на дообучении (файнтюне) будут лучше. Приятно, что независимые наблюдения сходятся.

Интересным поделился ❣ Ермек Капушев

#YaICML25

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤3😱2👍1

3.31K views11:20

Душный NLP

Qwen3-Coder

Alibaba представила Qwen3-Coder — новую MoE-модель, заточенную под задачи программирования. Самая крупная версия — на 480 миллиардов параметров, из которых активные — 35 миллиардов. Контекстное окно Qwen3-Coder-480B-A35B-Instruct составляет 256 тысяч токенов с возможностью расширения до миллиона с помощью YaRN. Число поддерживаемых языков программирования — 358.

Qwen3-Coder адаптирован для агентного программирования (Agentic Coding) — то есть модель не просто пишет код, а полноценно использует инструменты и принимает решения. Ранее в июле Moonshot AI представила MoE-модель KIMI-K2, которая тоже поддерживает агентное программирование. Заметен переход к нему.

Qwen3-Coder тренировали на 7,5 триллиона токенов, 70% из которых — код. Для очистки и перезаписи шумных данных использовали Qwen2.5-Coder. Во время RL модель учили на реальных задачах, которые нужно было решать с помощью различных инструментов. Здесь на помощь пришла инфраструктура Alibaba Cloud — на её основе инженеры компании построили систему из 20 тысяч параллельных изолированных сред для обучения.

В результате, как сообщают разработчики, Qwen3-Coder демонстрирует лучшие результаты на SWE-Bench Verified среди всех открытых моделей, а по качеству решение Alibaba сопоставимо с Claude Sonnet 4. Опробовать Qwen3-Coder можно по ссылке.

Вместе с новой моделью Alibaba открыла и код инструмента командной строки для агентного программирования — Qwen Code, основанного на форке Gemini Code. В него добавили кастомные подсказки и протоколы вызова функций.

Душный NLP

❤12👍4🔥2🤯1

4.07K views12:09

Душный NLP

В Вене проходит 63-я ежегодная конференция ассоциации компьютерной лингвистики — ACL 2025

А мы как всегда следим 👀 и делимся с вами самым интересным. Мы уже публиковали занимательную статистику c конференции в канале ML Underhood (кстати, подписывайтесь!), а теперь настало время поговорить о статьях.

Конференцию открыл часовой кейноут Люка Зеттлемойера, профессора Paul G. Allen School of Computer Science & Engineering в Университете Вашингтона, старшего научного руководителя Meta* и президента ACL. Он рассказал о том, как стандартный пайплайн обучения LLM: токенизация, претрейн и элаймент, несмотря на невероятный успех, почти наверняка имеет множество возможностей улучшения, которые мы упускаем. Доклад был построен вокруг трех векторов исследования:

— повышения эффективности обработки данных после обучения;
— новых методов извлечения большего количества сигналов из данных претрейна, включая новые иерархические архитектуры для языковых моделей байтового уровня (BLT), которые не требуют использования токенизаторов и масштабируются лучше, чем традиционные методы на основе BPE;
— одного из подходов к MoE — FlexOLMo.

Все три темы были интересными! А вот ещё н несколько докладов, которые отметили яндексоиды:

Human-LLM Coevolution: Evidence from Academic Writing

Довольно ожидаемо авторы утверждают, что с появлением Chat GPT частотность употребления некоторых слов в научных статьях резко изменилась. Затем исследователи делают ещё один шажок и говорят, что это не обязательно означает, что LLM пишут статьи. Скорее мы наблюдаем, как люди, много взаимодействующие с LLM, оказываются под их влиянием и изменяют свои паттерны словоупотребления.

From Words to Worlds: NLP for Game Creation and Interaction

Индустриальный рассказ об Epic Games об использовании LLM для NPC в играх. Пользователь, играя, может задать произвольный вопрос и персонаж будет отвечать (естественно, со своим характером и т. п.). Это выглядит здорово и меняет опыт взаимодействия с игровым миром. Решение внедрили в Fortnite пару месяцев назад, она работает поверх чужих API и позволяет поговорить с Дартом Вейдером. Также они делают свой code completion и анимацию персонажей с помощью AI.

Understanding Impact of Human Feedback via Influence Functions

Исследователи оценили влияние фидбека человека, введя понятие функции влияния, и пришли к выводам, что это влияние превосходит показатели базовой LLM. Ещё более сильным негативным влиянием обладает ошибочный фидбек. Авторы разработали подход, который позволяет это детектировать и, следовательно, убирать или исправлять.

* Компания Meta признана экстремистской организацией в России.

Наблюдениями делились

❣

Алексей Березникер и Александр Николайчик

#YaACL25

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍4🔥2

2.71K views10:52

Душный NLP

Интересное с конференции ACL 2025

Мы снова выходим на связь — с любопытными постерами продолжающейся ACL.

AdParaphrase v2.0: Generating Attractive Ad Texts Using a Preference-Annotated Paraphrase Dataset

Исследователь предлагает набор данных для переформулировок рекламных текстов, содержащий данные о предпочтениях 10 асессоров. Набор позволяет анализировать лингвистические факторы и разрабатывать методы создания привлекательных рекламных текстов.

Утверждают, что анализ продемонстрировал взаимосвязь между предпочтениями пользователей (асессоры) и эффективностью рекламы (CTR). На фото есть график со значимостью исследуемых факторов.

Semantic Outlier Removal with Embedding Models and LLMs

Любопытная прикладная статья о том, как быстро почистить страницу от мусора, не относящегося к основной теме. Берём все HTML-теги с текстом и их уровень вложенности. Отдаём всё это эмбеддеру, а отдельно ему же — тайтл и основную тему. Затем просто режем по расстоянию. Автор статьи утверждает, что такой подход эффективно фильтрует, футеры, меню и тому подобное.

Learning to Insert [PAUSE] Tokens for Better Reasoning

Делая фиктивные паузы и «вздохи» в рассуждениях, модель приходит к лучшим ответам. Авторы изучали возможность улучшения ризонинга за счёт добавления спецтокенов (PAUSE) в процесс обучения LLM. У авторов уже были успешные исследования на эту тему. Конкретно в этой работе представили подход динамического определения позиции для вставки спецтокенов.

Интересное увидели ❣ Алексей Березникер и Александр Николайчик

#YaACL25

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤3👍3

2.8K views10:30

Душный NLP

POV: на улицах пусто, все ушли на воркшопы

Вот так сегодня выглядели окрестности Austria Center Vienna — конференц-зала в центре Вены, где проходит ACL 2025.

Мы тоже на воркшопах, поэтому сегодня больше ничего не покажем и не расскажем. Зато на следующей неделе вернёмся подытожить, чем запомнилась конференция.

До связи!

Нашёл минутку выглянуть на улицу ❣ Алексей Березникер

#YaACL25

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13😁4🔥1

3.38K views17:14

About

Blog

Apps

Platform