Открытый код ФКН ВШЭ

tabpfn-finetuning

В репозитории представлен код для систематического изучения дообучения табличной фундаментальной модели TabPFNv2. Авторы сравнивают различные стратегии адаптации — полный fine-tuning, частичный — последние слои/LayerNorm/голова/эмбеддинги, параметро-эффективные LoRA, а также добавочные числовые эмбеддинги — и показывают, что при корректном подборе гиперпараметров именно полное дообучение даёт наилучший баланс точности и скорости сходимости. Ключевой вывод: после адаптации скалярные произведения запрос–ключ в последнем слое inter-sample внимания лучше согласуются с близостью объектов по целевой переменной; за счёт этого модель точнее собирает предсказание из релевантных контекстных примеров. Практически авторы демонстрируют дообучение на наборах до 1 млн ячеек и до 50 тыс. объектов: на академических i.i.d.-разбиениях затюненая версия достигает или превосходит современный уровень, тогда как на задачах с временным сдвигом и богатыми признаками стабильность ниже и сильные не фундаментальные DL/GBDT бейзлайны иногда предпочтительнее. Дополнительно отмечено: полный fine-tuning сходится быстрее альтернатив; увеличение числа объектов, участвующих в одном градиентном шаге предсказаний, стабильно улучшает качество; ансамбли из нескольких дообученных копий дают дополнительный прирост. Код и конфигурации доступны в открытом виде. Работа будет полезна практикам табличного DL и AutoML, выбирающим стратегию адаптации под конкретные данные, и исследователям, изучающим механизмы in-context-обучения в табличных моделях.

статья | код

GitHub

GitHub - yandex-research/tabpfn-finetuning: On Finetuning Tabular Foundation Models Paper Code

On Finetuning Tabular Foundation Models Paper Code - yandex-research/tabpfn-finetuning

🔥6❤3

601 views11:23

Открытый код ФКН ВШЭ

FEVERDiagnostics

В репозитории опубликован код для воспроизведения результатов исследования по автоматической проверке фактов с использованием Википедии. Авторы рассматривают задачу в формате корпуса FEVER, где система должна по запросу находить подтверждающие или опровергающие утверждение отрывки текста. Несмотря на высокий прогресс в области, существующие модели часто совершают ошибки, природа которых оставалась недостаточно понятной. Для решения этой проблемы предложена диагностическая таксономия ошибок, включающая десять категорий: синонимы и антонимы, имена собственные, отрицания, квантификаторы, отношения между объектами, числа и арифметика, время, смысловые выводы, география и перегрузка текста лишними деталями. На основе таксономии создан новый диагностический набор данных, позволяющий выявлять слабые места современных систем. Кроме того, авторы разработали генеративный подход к дополнению обучающих данных: часть примеров создаётся автоматически по правилам, а часть — с помощью языковой модели. Эксперименты показывают, что дообучение на таких данных повышает точность распознавания в сложных категориях и улучшает итоговые результаты на тестовом корпусе FEVER. Работа будет полезна исследователям в области обработки естественного языка, специалистам по проверке фактов и разработчикам систем автоматической модерации контента.

статья | код

GitHub

GitHub - aschern/FEVERDiagnostics: Code for the paper titled "Enhancing FEVER-Style Claim Fact-Checking Against Wikipedia"

Code for the paper titled "Enhancing FEVER-Style Claim Fact-Checking Against Wikipedia" - aschern/FEVERDiagnostics

🔥6❤2

364 views14:41

Открытый код ФКН ВШЭ

Forwarded from ФКН НИУ ВШЭ

Kotlin-митап: вторая встреча

💻

💻 совместно с российской группой пользователей Kotlin продолжают серию митапов, посвящённых разным аспектам разработки на Kotlin и экосистемы языка. Митап подойдёт как новичкам, так и бывалым котлиновцам.

В программе:
⤵️ 18:00 — Открытие митапа

🎙️

Александр Нозик, лидер Kotlin-сообщества, Центр научного программирования, МФТИ

⤵️ 18:10 — Доклад «Алгоритмы вычисления солнечных и лунных событий: от теории к практике на Kotlin»

🎙️

Максим Сагациян, Android-разработчик, кандидат технических наук, лектор ЯрГУ

⤵️ 19:10 — Доклад «Пишут ли хорошие программисты быстрый код?»

🎙️

Александр Нозик

📆

Когда: 29 августа в 18:00

🗺️

Где: Покровский бульвар, 11, ауд. R306

Участие бесплатное по регистрации

🐭

#анонсы #разработка

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

360 views15:06

Открытый код ФКН ВШЭ

tencdm

В репозитории опубликован код для воспроизведения результатов работы по генерации текста с помощью диффузионных моделей. Авторы предлагают новый подход TEncDM, где диффузионная модель обучается не на стандартных векторных представлениях слов (эмбеддингах), а на выходах заранее обученных языковых моделей — так называемых кодировках. В отличие от эмбеддингов, такие кодировки содержат контекст, что облегчает восстановление текста при пошаговом удалении шума. В исследовании подробно анализируются ключевые компоненты диффузионной модели: архитектура декодера, стратегия добавления шума и механизм обуславливания на предыдущий выход - self-conditioning. Авторы показывают, что использование кодировок вместо эмбеддингов существенно повышает качество генерации, а также то, что более сложный декодер, учитывающий контекст, исправляет ошибки и делает текст более связным. Для проверки метода проведены эксперименты на задачах переформулирования вопросов, суммаризации и упрощения текста. Результаты показывают, что TEncDM превосходит существующие неавторегрессионные диффузионные модели и по ряду метрик сравним с классическими авторегрессионными методами. Работа будет полезна исследователям в области обработки текста, специалистам по генеративным моделям и разработчикам систем автоматической генерации контента.

статья | код

GitHub

GitHub - M0RJIQUE/tencdm

Contribute to M0RJIQUE/tencdm development by creating an account on GitHub.

🔥10❤5

247 views08:24

About

Blog

Apps

Platform