DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
加入频道
Sparse Networks from Scratch: Faster Training without Losing Performance
timdettmers.com/2019/07/11/sparse-networks-from-scratch

Стандартные подходы к сжатию сеток основываются на том, что мы обучаем сеть обычным метогдом, а потом эту (плотную) сеть уменьшаем и прорежаем. В этой статейке предложили метод оптимизации, который делает сетки разрежеными ещё во время обучения. Выглядит интересно, но тестировали как всегда только на MNIST и CIFAR.
#rl

К сожалению, на этой неделе не получится провести rl-встречу в четверг, переносим её на неделю вперёд. Надеюсь, что это увеличит число решённых заданий.

Прошу обратить внимание, что в четвёртой задаче агент учится часов 6 на GPU (при условии что всё написано без ошибок, у вас хорошие гиперпараметры и звёзды на небе расположенны благосклонно), так что начинайте её как можно раньше.
Это не я их ищу, это они меня находят. Ещё одна вариация трансформера.

R-Transformer: Recurrent Neural Network Enhanced Transformer
Wang et al. [Michigan State University]
arxiv.org/abs/1907.05572

Главная часть абстракта:
Despite their success, however, these models [transformers] lack necessary components to model local structures in sequences and heavily rely on position embeddings that have limited effects and require a considerable amount of design efforts.

Основная идея состоит в том, чтобы использовать для учёта локального контекста (например, 3 слова) модифицированную RNN, учитывающую только предыдущие M=3-1 слов, а для учёта глобального контекста (всей последовательности) использовать обычный self-attention. Работает на удивление неплохо, хотя задачи, конечно странно выбраны.
LocalRNN
Вся архитектура
Multilingual Universal Sentence Encoderfor Semantic Retrieval
Yang, Cer et al. [Google], 2019
arxiv.org/abs/1907.04307

Если кто-то пользовался TFHub, то один из самых популярных модулей там - это Universal Sentence Encoder (arxiv.org/abs/1803.11175). USE - это трансформер из эпохи позднего предбертья, предобучающаяся как на unsupervised (skip-thought), так и на supervised (SNLI) тасках.

Однако USE, выложенный на TFHub был недостаточно universal, потому что он был обучен только на английском. В новой версии он поддерживает 16 языков (включая русский 🎉). Про то, как он обучается: a multi-feature question-answer prediction task, a translation ranking task, and a natural language inference task. Я надеюсь, что вы поняли, потому что это всё, что я смог выудить из статьи.
Про данные расказано немного больше и есть интересные моменты:
1. QA-пары намайнены с Reddit, StackOverflow и YahooAnswers; часть QA-датасета переведена, чтобы добить все языки хотя бы до 60 млн пар вопрос-ответ
1. Переводы намайнены согласно www.aclweb.org/anthology/C10-1124 (статья просто даёт ссылку)
1. SNLI переведён с английского на все остальные 15 языков автоматически с помощью Google Translate

Кроме добавления 15 языков, модель теперь протестирована на поисковых тасках и показывает адекватное качество.

Из других интересных вещей: выложена не только transformer-based архитектура, но и CNN. CNN подходит вам сильно больше, если ваши тексты длинные, и/или вам важна производительность.

за наводку на статью спасибо @someotherusername
Кто хочет GPT-2 себе на iOS?
Таинственный RoBERT от FAIR, появившийся в лидербоарде GLUE
Новости из чатика #NLP в ODS:

VK Research зарелизили код распаралелленного и ускоренного алгоритма построения словаря для BPE. Говорят, что на практике ускоряет в 5-7 раз.

Код: github.com/VKCOM/YouTokenToMe
Пост на медиуме: medium.com/@vktech/youtokentome-a-tool-for-quick-text-tokenization-from-the-vk-team-aa6341215c5a
Сравнение BERT и XLNet.

TL;DR
1. Trained on the same data with an almost identical training recipe, XLNet outperforms BERT by a sizable margin on all the datasets.
1. The gains of training on 10x more data (comparing XLNet-Large-wikibooks and XLNet-Large) are smaller than the gains of switching from BERT to XLNet on 8 out of 11 benchmarks.
1. On some of the benchmarks such as CoLA and MRPC, the model trained on more data underperforms the model trained on less data.
#rl
На этой неделе встречаемся обсудить лекции и домашки по следующим темам:
1. DQN
1. Exploration vs exploitation (в тч байесовские методы)
1. Policy gradients

Домашки жёсткие, но интересные. Приходите.

Четверг, 19:00, 522 Цифра
#rl

На фоне домашки exploration vs exploitation.
Интересный блогпост про Montezuma’s Revenge, почему решение этой игры так важно для RL и почему решения 2018 года - это не совсем то, что нужно.

https://medium.com/@awjuliani/on-solving-montezumas-revenge-2146d83f0bc3