DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
加入频道
Тут в чате говорят, новую соту завезли 🎉 (на самом деле нет, RoBERTa всё равно лучше на GLUE).

Но если серьёзнее, то Baidu (не путать с Badoo) Research несколько дней назад представила свою модель ERNIE (Enhanced Representation through kNowledge IntEgration) 2.0.

Идея метода предобученния состоит примерно в следующем:
0. Толстый трансформер (как и у всех)
1. Continual pre-training: сразу несколько self-supervised (или weak-supervised) задач на уровне слов, синтаксиса и семантики
2. ERNIE стартует с одной из этих задач и постепенно во время обучения добавляются новые, более сложные
3. К каждому слову добавляется специальный эмбеддинг в зависимости от задачи

Подробнее про задачи:
1. Word-aware Pre-training Tasks:
1.1 Knowledge Masking - masked language model++, в котором маскируются фразы и именованные сущности, подробнее в статье про ERNIE 1.0
1.2 Capitalization Prediction - да, просто предсказывать, является ли это слово капитализированным. Забавная идея.
1.3 Token-Document Relation Prediction - предсказывается, появляется ли данное слово хотя бы ещё раз в данном документе. Тоже очень интересная идея - таким образом можно пытаться извлекать ключевые слова.

2. Structure-aware Pre-training Tasks
2.1 Sentence Reordering - N предложений случайно шаффлятся, после чего нужно предсказать их оригинальный порядок.
2.2 Sentence Distance - классификация пар предложений на три класса: идут подряд / находятся в одном документе / находятся в разных документах

3. Semantic-aware Pre-training Tasks
3.1 Discourse Relation - если я правильно понял, то это дисстиляция semantic relation модели
3.2 IR Relevance - тк Baidu это поисковик, у них есть логи поиска. Они и используются в этой задаче. По query и title нужно предсказать один из трёх классов: 0 - the title is clicked by the users after they input the query, 1 - these titles appear in the search results but failed to be clicked by users, 2 - the query and title are completely irrelevant

за ссылку на статью спасибо @Cookie_thief

Статья довольно неплохо написана, советую почитать
UPD: нету абляционных исследований 😫

ERNIE 2.0: A Continual Pre-Trainining Framework for Language Understanding
Sun et al. [Baidu]
arxiv.org/pdf/1907.12412v1.pdf
Подробности предобучения:
1. 64 V100
1. float16
1. Adam(eta=5e-5, beta1=0.9, beta2=0.98), прогрев в течение первых 4 000 батчей
1. число токенов в батче: 393 216 (наверное что-то близкое к maxseqlen=512, batch_size=768)
Красивая картинка, по которой всё сразу понятно (ну почти)
Размеры датасетов для английского и китайского
GLUE
#rl
Последнее занятие близится. Темы жёсткие, но давайте попробуем успеть как можно больше:

1. TRPO, PPO (затронули на прошлом семинаре)
1. DDPG, TD3, SAC (скорее всего только теория)

Ещё, если успеем:
1. Planning, model-based RL
1. Imitation learning

Аналогично прошлому разу, приносите ноутбуки, будем решать задания вместе.

Для PPO ближе к середине недели появится более простая версия задания. TD3 и SAC в яндексовом курсе нет, но мы что-нибудь придумаем, это очень крутые алгоритмы. Каждый день буду постить доп. материалы, чтобы было проще.
#rl

По-моему мы это затрагивали на занятиях, но хочу рассказать про OpenAI Spinnig Up in Deep RL
Он состоит из двух частей - кодовой базы и документации к ней. Код - это довольно понятно написанные реализации самых популярных алгоритмов RL. В документации есть довольно подробное описание каждого из них и на моём опыте он очень помог мне осознать TRPO и PPO. Тут их и советую почитать, сразу после лекции по TRPO CS294-112.

Этот сайт, по-моему, не очень подходит для изучения RL с нуля, но в качестве справочника просто идеален.
Только что закончился первый NLP митап Huawei. Поговорили про document-level машинный перевод, мультиязычность BERT и про BERT в проде. Как смогу добыть презентации и записи, ссылки на них появятся тут.
Кстати всем спасибо, кто пришёл на митап из этого канала. Вы классные. Не со всеми успел поговорить, но много кого видел.
Вчера увидел новую статью от Alexander Rush
И она по unsupervised суммаризации

Simple Unsupervised Summarization by Contextual Matching
Zhou et Rush [Harvard]
arxiv.org/pdf/1907.13337v1.pdf
#rl
Сегодня занятия по RL не будет. Устроим голосовалку в чате, когда его провести.
Завтра в ШАДе у нас будет аж два события: семинар по RL и reading club по интерпретации BERT.
Я уже внёс в списки тех, кто участвует в summer camp, кто-то может добавиться ещё.
Время будет сообщено позже: ориентируйтесь на 12-15 часов.

Форма для охраны. Закроется в 12:00, торопитесь. Ещё у нас маленькая аудитория (Сорбонна, а не Оксфорд), надеюсь что вас будет не очень много)

https://forms.office.com/Pages/ResponsePage.aspx?id=DQSIkWdsW0yxEjajBLZtrQAAAAAAAAAAAAMAAKZ1i4JUQlBMQURTNFRIVksxT1lFUDBSUEgzQjdHQy4u
PyTorch 1.2 и TorchText 0.4 🎉
pytorch.org/blog/pytorch-1.2-and-domain-api-release

В PyTorch:

nn.Transformer
nn.TransformerEncoder
nn.TransformerEncoderLayer

etc.

Поддержка tensorboard вышла из статуса экспериментальной. Просто используйте torch.utils.tensorboard

В torchtext завезли больше встроенных датасетов и туториалов и улучшили поддержку torch.data.dataset
Оказывается, у RASA есть свой research blog. Они попытались ускорить берт с помощью квантизации. Вообще довольно хорошая статья с обзором методов сжатия, почитайте.

Compressing BERT for faster prediction
blog.rasa.com/compressing-bert-for-faster-prediction-2

Спойлер: не смогли, но скорее всего всё дело в TF Lite