Открытый код ФКН ВШЭ
813 subscribers
29 photos
93 links
Показываем новости по открытому коду ФКН ВШЭ.

Контакты: Михаил Гущин @mhushchyn
加入频道
tabpfn-finetuning

В репозитории представлен код для систематического изучения дообучения табличной фундаментальной модели TabPFNv2. Авторы сравнивают различные стратегии адаптации — полный fine-tuning, частичный — последние слои/LayerNorm/голова/эмбеддинги, параметро-эффективные LoRA, а также добавочные числовые эмбеддинги — и показывают, что при корректном подборе гиперпараметров именно полное дообучение даёт наилучший баланс точности и скорости сходимости. Ключевой вывод: после адаптации скалярные произведения запрос–ключ в последнем слое inter-sample внимания лучше согласуются с близостью объектов по целевой переменной; за счёт этого модель точнее собирает предсказание из релевантных контекстных примеров. Практически авторы демонстрируют дообучение на наборах до 1 млн ячеек и до 50 тыс. объектов: на академических i.i.d.-разбиениях затюненая версия достигает или превосходит современный уровень, тогда как на задачах с временным сдвигом и богатыми признаками стабильность ниже и сильные не фундаментальные DL/GBDT бейзлайны иногда предпочтительнее. Дополнительно отмечено: полный fine-tuning сходится быстрее альтернатив; увеличение числа объектов, участвующих в одном градиентном шаге предсказаний, стабильно улучшает качество; ансамбли из нескольких дообученных копий дают дополнительный прирост. Код и конфигурации доступны в открытом виде. Работа будет полезна практикам табличного DL и AutoML, выбирающим стратегию адаптации под конкретные данные, и исследователям, изучающим механизмы in-context-обучения в табличных моделях.

статья | код
🔥63
FEVERDiagnostics

В репозитории опубликован код для воспроизведения результатов исследования по автоматической проверке фактов с использованием Википедии. Авторы рассматривают задачу в формате корпуса FEVER, где система должна по запросу находить подтверждающие или опровергающие утверждение отрывки текста. Несмотря на высокий прогресс в области, существующие модели часто совершают ошибки, природа которых оставалась недостаточно понятной. Для решения этой проблемы предложена диагностическая таксономия ошибок, включающая десять категорий: синонимы и антонимы, имена собственные, отрицания, квантификаторы, отношения между объектами, числа и арифметика, время, смысловые выводы, география и перегрузка текста лишними деталями. На основе таксономии создан новый диагностический набор данных, позволяющий выявлять слабые места современных систем. Кроме того, авторы разработали генеративный подход к дополнению обучающих данных: часть примеров создаётся автоматически по правилам, а часть — с помощью языковой модели. Эксперименты показывают, что дообучение на таких данных повышает точность распознавания в сложных категориях и улучшает итоговые результаты на тестовом корпусе FEVER. Работа будет полезна исследователям в области обработки естественного языка, специалистам по проверке фактов и разработчикам систем автоматической модерации контента.

статья | код
🔥62
Forwarded from ФКН НИУ ВШЭ
Kotlin-митап: вторая встреча

💻💻💻 совместно с российской группой пользователей Kotlin продолжают серию митапов, посвящённых разным аспектам разработки на Kotlin и экосистемы языка. Митап подойдёт как новичкам, так и бывалым котлиновцам.

В программе:
⤵️ 18:00 — Открытие митапа
🎙️ Александр Нозик, лидер Kotlin-сообщества, Центр научного программирования, МФТИ

⤵️ 18:10 — Доклад «Алгоритмы вычисления солнечных и лунных событий: от теории к практике на Kotlin»
🎙️ Максим Сагациян, Android-разработчик, кандидат технических наук, лектор ЯрГУ

⤵️ 19:10 — Доклад «Пишут ли хорошие программисты быстрый код?»
🎙️ Александр Нозик

📆 Когда: 29 августа в 18:00
🗺️ Где: Покровский бульвар, 11, ауд. R306

Участие бесплатное по регистрации 🐭

#анонсы #разработка
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41
tencdm

В репозитории опубликован код для воспроизведения результатов работы по генерации текста с помощью диффузионных моделей. Авторы предлагают новый подход TEncDM, где диффузионная модель обучается не на стандартных векторных представлениях слов (эмбеддингах), а на выходах заранее обученных языковых моделей — так называемых кодировках. В отличие от эмбеддингов, такие кодировки содержат контекст, что облегчает восстановление текста при пошаговом удалении шума. В исследовании подробно анализируются ключевые компоненты диффузионной модели: архитектура декодера, стратегия добавления шума и механизм обуславливания на предыдущий выход - self-conditioning. Авторы показывают, что использование кодировок вместо эмбеддингов существенно повышает качество генерации, а также то, что более сложный декодер, учитывающий контекст, исправляет ошибки и делает текст более связным. Для проверки метода проведены эксперименты на задачах переформулирования вопросов, суммаризации и упрощения текста. Результаты показывают, что TEncDM превосходит существующие неавторегрессионные диффузионные модели и по ряду метрик сравним с классическими авторегрессионными методами. Работа будет полезна исследователям в области обработки текста, специалистам по генеративным моделям и разработчикам систем автоматической генерации контента.

статья | код
🔥105