BigData

EvalPlanner: модель Thinking-LLM-as-a-Judge, которая учится думать путём планирования и рассуждения при оценке

Модели LLM-as-a-Judge (LLM в роли судьи) генерируют цепочки рассуждений (Chain-of-Thought, CoT), отражающие пошаговый процесс размышлений, лежащий в основе финальной оценки ответа. Однако отсутствие размеченных вручную цепочек CoT затрудняет обучение таких моделей.

Чтобы решить эту проблему, в данной работе представлена EvalPlanner — алгоритм оптимизации предпочтений для Thinking-LLM-as-a-Judge. Он сначала генерирует неограниченный план оценки, затем исполняет его, и только потом выносит итоговый вердикт.

Компоненты
EvalPlanner предполагает, что эффективная цепочка рассуждений для оценки должна состоять из трёх компонентов:

1. План оценки z
— Для данной инструкции план задаёт рецепт оценки предложенных ответов на инструкцию.

2. Исполнение плана
— Отвечает за пошаговое проведение оценки по плану, анализируя пару ответов (a и b) и формируя итоговое суждение y.

3. Итоговый вердикт
— При использовании LLM в роли судьи, параметризованной θ, план z и исполнение e считаются скрытыми переменными.

Генерация синтетических обучающих данных

1. Выбираются общие инструкции и задачи на математическое рассуждение, и генерируются пары ответов.
2. Создаётся универсальный и неограниченный промпт для генерации плана, который задаётся модели-источнику, основываясь только на инструкции.
3. Та же модель-источник используется для выполнения плана на основе инструкции и пары ответов с целью получения вердикта.
4. Формируются пары предпочтений между планами и их исполнениями.

Оптимизация предпочтений планов и исполнений

Включает цикл самообучения:
- Начинается с модели-источника, на которой проводится SFT (Supervised Fine-Tuning) на подмножестве «выбранных» CoT, чтобы получить модель \( M₁^{SFT} \).
- Затем выполняются две итерации Direct Preference Optimization (DPO) на парах предпочтений CoT, в результате чего получаются модели \( M₁^{DPO} \) и \( M₂^{DPO} \).

Результаты

- EvalPlanner достигает нового SOTA (state-of-the-art) результата для генеративных reward-моделей на бенчмарке RewardBench (со счётом 93.9), несмотря на меньшее количество и синтетическую природу пар предпочтений.
- Планы EvalPlanner адаптированы под конкретную инструкцию, эффективны с точки зрения данных и выигрывают от итеративной оптимизации рассуждений.

- 📄 Blog
- 🛠️ Paper

👉 @bigdata_1

👍1

1.05K views09:36