Открытый код ФКН ВШЭ
813 subscribers
29 photos
93 links
Показываем новости по открытому коду ФКН ВШЭ.

Контакты: Михаил Гущин @mhushchyn
加入频道
tencdm

В репозитории опубликован код для воспроизведения результатов работы по генерации текста с помощью диффузионных моделей. Авторы предлагают новый подход TEncDM, где диффузионная модель обучается не на стандартных векторных представлениях слов (эмбеддингах), а на выходах заранее обученных языковых моделей — так называемых кодировках. В отличие от эмбеддингов, такие кодировки содержат контекст, что облегчает восстановление текста при пошаговом удалении шума. В исследовании подробно анализируются ключевые компоненты диффузионной модели: архитектура декодера, стратегия добавления шума и механизм обуславливания на предыдущий выход - self-conditioning. Авторы показывают, что использование кодировок вместо эмбеддингов существенно повышает качество генерации, а также то, что более сложный декодер, учитывающий контекст, исправляет ошибки и делает текст более связным. Для проверки метода проведены эксперименты на задачах переформулирования вопросов, суммаризации и упрощения текста. Результаты показывают, что TEncDM превосходит существующие неавторегрессионные диффузионные модели и по ряду метрик сравним с классическими авторегрессионными методами. Работа будет полезна исследователям в области обработки текста, специалистам по генеративным моделям и разработчикам систем автоматической генерации контента.

статья | код
🔥105