DL in NLP – Telegram

DL in NLP

12.5K subscribers

547 photos

13 videos

27 files

1.1K links

Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)

About

Blog

Apps

Platform

12.5K subscribers

Multilingual Universal Sentence Encoderfor Semantic Retrieval
Yang, Cer et al. [Google], 2019
arxiv.org/abs/1907.04307

Если кто-то пользовался TFHub, то один из самых популярных модулей там - это Universal Sentence Encoder (arxiv.org/abs/1803.11175). USE - это трансформер из эпохи позднего предбертья, предобучающаяся как на unsupervised (skip-thought), так и на supervised (SNLI) тасках.

Однако USE, выложенный на TFHub был недостаточно universal, потому что он был обучен только на английском. В новой версии он поддерживает 16 языков (включая русский 🎉). Про то, как он обучается: a multi-feature question-answer prediction task, a translation ranking task, and a natural language inference task. Я надеюсь, что вы поняли, потому что это всё, что я смог выудить из статьи.
Про данные расказано немного больше и есть интересные моменты:
1. QA-пары намайнены с Reddit, StackOverflow и YahooAnswers; часть QA-датасета переведена, чтобы добить все языки хотя бы до 60 млн пар вопрос-ответ
1. Переводы намайнены согласно www.aclweb.org/anthology/C10-1124 (статья просто даёт ссылку)
1. SNLI переведён с английского на все остальные 15 языков автоматически с помощью Google Translate

Кроме добавления 15 языков, модель теперь протестирована на поисковых тасках и показывает адекватное качество.

Из других интересных вещей: выложена не только transformer-based архитектура, но и CNN. CNN подходит вам сильно больше, если ваши тексты длинные, и/или вам важна производительность.

за наводку на статью спасибо @someotherusername

1.32K viewsedited 09:27

И соответствующая "USE 2.0" статья из блога Гугла:
ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html

research.google

Multilingual Universal Sentence Encoder for Semantic Retrieval

Posted by Yinfei Yang and Amin Ahmad, Software Engineers, Google Research Since it was introduced last year, “Universal Sentence Encoder (USE) for...

1.31K views09:32

Вы можете не любить эту либу, только если вы её не пробовали. Теперь 1.0

twitter.com/Thom_Wolf/status/1151169470498582529

🔥Pytorch-Transformers 1.0🔥 Six NLU/NLG architectures: BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM Total: 27 pretrained models Still the same -Superfast onboarding -SOTA scripts: GLUE, SQuAD, Text generation New -Unified API -Access hidden-states, attentions...…

1.28K views07:35

B тут Рудер зовёт к себе на работу, вдруг кто решит попробовать пройти в DeepMind

https://twitter.com/seb_ruder/status/1151521975866667019

Sebastian Ruder

Are you excited about building models that can understand language? Do you want to understand how humans acquire language in the first place? We have an opening for a research engineer in our team at @DeepMindAI. https://t.co/XxGxgQszsf

1.35K views07:36

Вчера разобрали статью
Large Memory Layers with Product Keys
Lample et al. [FAIR]
arxiv.org/abs/1907.05242

Презентация:
https://docs.google.com/presentation/d/1T0MJa8eHmpe6Vjyz5Vd1tMs6DWqjtTPotUBt9NEUy9g

Large Memory Layers with Product Keys

This paper introduces a structured memory which can be easily integrated into a neural network. The memory is very large by design and significantly increases the capacity of the architecture, by...

1.31K views08:45

Кто хочет GPT-2 себе на iOS?

1.14K views10:08

https://twitter.com/julien_c/status/1151981396736581633

Julien Chaumond

Something really, really cool is coming 🦄 #onDevice #GPT2onTheEdge

1.25K views10:08

Таинственный RoBERT от FAIR, появившийся в лидербоарде GLUE

1.24K views10:16

https://twitter.com/sleepinyourhat/status/1151940994688016384

The new RoBERTa model from FAIR just edged out XLNet on the https://t.co/ryDQeo2HU2 nine-task leaderboard. Here's the information we have so far:

1.58K views10:16

Новости из чатика #NLP в ODS:

VK Research зарелизили код распаралелленного и ускоренного алгоритма построения словаря для BPE. Говорят, что на практике ускоряет в 5-7 раз.

Код: github.com/VKCOM/YouTokenToMe
Пост на медиуме: medium.com/@vktech/youtokentome-a-tool-for-quick-text-tokenization-from-the-vk-team-aa6341215c5a

GitHub - VKCOM/YouTokenToMe: Unsupervised text tokenizer focused on computational efficiency

Unsupervised text tokenizer focused on computational efficiency - VKCOM/YouTokenToMe

1.3K views14:31

Сравнение BERT и XLNet.

TL;DR
1. Trained on the same data with an almost identical training recipe, XLNet outperforms BERT by a sizable margin on all the datasets.
1. The gains of training on 10x more data (comparing XLNet-Large-wikibooks and XLNet-Large) are smaller than the gains of switching from BERT to XLNet on 8 out of 11 benchmarks.
1. On some of the benchmarks such as CoLA and MRPC, the model trained on more data underperforms the model trained on less data.

1.27K viewsedited 06:46

https://twitter.com/rsalakhu/status/1153119699128979461

Russ Salakhutdinov

A Fair Comparison Study of XLNet and BERT with Large Models: https://t.co/3GSKDMaXTg

1.28K views06:46

#rl
На этой неделе встречаемся обсудить лекции и домашки по следующим темам:
1. DQN
1. Exploration vs exploitation (в тч байесовские методы)
1. Policy gradients

Домашки жёсткие, но интересные. Приходите.

Четверг, 19:00, 522 Цифра

1.32K viewsedited 11:22

#rl

На фоне домашки exploration vs exploitation.
Интересный блогпост про Montezuma’s Revenge, почему решение этой игры так важно для RL и почему решения 2018 года - это не совсем то, что нужно.

https://medium.com/@awjuliani/on-solving-montezumas-revenge-2146d83f0bc3

On “solving” Montezuma’s Revenge

Looking beyond the hype of recent Deep RL successes

1.84K views07:39

#rl На этой неделе встречаемся обсудить лекции и домашки по следующим темам: 1. DQN 1. Exploration vs exploitation (в тч байесовские методы) 1. Policy gradients Домашки жёсткие, но интересные. Приходите. Четверг, 19:00, 522 Цифра

#rl
Всем привет! Напоминаю, что сегодня собираемся в 19 часов в 522 Цифра

1.34K viewsedited 10:19

Давно тут ничего не было NLP-шного

RoBERTa: A Robustly Optimized BERT Pretraining Approach
Liu et al. [FAIR]
arxiv.org/abs/1907.11692

Абстракт абстракта:
We find that BERT was significantly undertrained, and can match or exceed the performance of every model published after it.

Авторы поигрались с бертом (а заодно переписали его на 🔥), сделали маскирование не статическое (только на этапе предобработки данных), а динамическое (генерировать новую маску каждый раз, когда видишь пример), посмотрели на NSP и сказали, что без него на самом деле лучше, а также подкрутили гиперпараметры. Вроде бы это всё, что я заметил, прочитав статью по диагонали, если что-то упустил - пишите в чат.

Ссылку нашёл в прекрасном канале @j_links

RoBERTa: A Robustly Optimized BERT Pretraining Approach

Language model pretraining has led to significant performance gains but careful comparison between different approaches is challenging. Training is computationally expensive, often done on private...

1.21K viewsedited 13:53

И немного безумных примеров того, что могут выучить модельки, если писать их быстро и криво (перевод посимвольный)

1.13K views14:39

Спасибо @Cookie_theif за ссылку на WikiMatrix

Что это такое. Это параллельные корпуса текстов на 85 языках из распаршенной википедии. 132 млн предложений (это очень много) из которых всего 34 млн параллельные с английским (то есть он действительно многоязычный). Корпусов, как известно, много не бывает. Больших корпусов тем более.

Подход:
We use LASER's bitext mining approach and encoder for 93 languages. We do not use the inter-language links provided by Wikipedia, but search over all Wikipedia artickes of each language. We approach the computational challenge to mine in almost 600 million sentences by using fast indexing and similarity search with FAISS. Prior to mining parallel sentences, we perform sentence segmentation, deduplication and language identification.

Для того, чтобы скачать требуемую вам пару языков, достаточно wget’нуть ссылку вида
https://dl.fbaipublicfiles.com/laser/WikiMatrix/v1/WikiMatrix.xx-yy.tsv.gz
где xx-yy – это интересующая вас пара (например, ru-en).

LASER/tasks/WikiMatrix at main · facebookresearch/LASER

Language-Agnostic SEntence Representations. Contribute to facebookresearch/LASER development by creating an account on GitHub.

1.27K viewsedited 19:00

Больше трансформеров хороших и разных

https://twitter.com/rsalakhu/status/1156018823016751105

Russ Salakhutdinov

I can see XLNetTron paper coming out very soon studying various objectives and training parameters of XLNet :) https://t.co/wlKaBsh7MZ

1.22K views07:47

Huawei Speech & Language организует в Москве серию NLP-митапов. Первый из них состоится 6 августа и будет посвящён бертоведению.

Докладчики:
Никита Сметанин, Replika.ai - ВERT for dialogs: production-scale approach
Михаил Архипов, iPavlov, МФТИ - Multilingualism of BERT
Invited speaker Dr. Qun Liu, Chief Research Scientist of Noah's Ark Lab, Huawei

Место: Ленинградский проспект, 36 стр. 11 (Офисный центр SOK Динамо)
Для участия нужна регистрация: sites.google.com/view/moscow-nlp

Huawei Speech & Language

An open seminar on modern approaches to Speech and Language Processing. Free for everyone.
Organized by Huawei Moscow Speech & Language Team (Huawei Noah's Ark Lab).

2.19K viewsedited 09:05

#rl
Мы довольно быстро движемся по яндексовому курсу и у нас получается около недели в запасе. Поэтому предлагаю в этот четверг встретиться в формате практического занятия на котором разберём самые интересные домашки и пофиксим баги друг друга.

Ну и, конечно, надо просмотреть и выполнить что можете по 7 8 9 лекциям
Они не такие сложные, как я думал (по крайней мере 7 и 8)

Время и место стандартные: 19 часов, 522 Цифра
не забудьте ноутбуки

1.18K viewsedited 10:50