Вы можете не любить эту либу, только если вы её не пробовали. Теперь 1.0
twitter.com/Thom_Wolf/status/1151169470498582529
twitter.com/Thom_Wolf/status/1151169470498582529
Twitter
Thomas Wolf
🔥Pytorch-Transformers 1.0🔥 Six NLU/NLG architectures: BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM Total: 27 pretrained models Still the same -Superfast onboarding -SOTA scripts: GLUE, SQuAD, Text generation New -Unified API -Access hidden-states, attentions...…
B тут Рудер зовёт к себе на работу, вдруг кто решит попробовать пройти в DeepMind
https://twitter.com/seb_ruder/status/1151521975866667019
https://twitter.com/seb_ruder/status/1151521975866667019
Twitter
Sebastian Ruder
Are you excited about building models that can understand language? Do you want to understand how humans acquire language in the first place? We have an opening for a research engineer in our team at @DeepMindAI. https://t.co/XxGxgQszsf
Вчера разобрали статью
Large Memory Layers with Product Keys
Lample et al. [FAIR]
arxiv.org/abs/1907.05242
Презентация:
https://docs.google.com/presentation/d/1T0MJa8eHmpe6Vjyz5Vd1tMs6DWqjtTPotUBt9NEUy9g
Large Memory Layers with Product Keys
Lample et al. [FAIR]
arxiv.org/abs/1907.05242
Презентация:
https://docs.google.com/presentation/d/1T0MJa8eHmpe6Vjyz5Vd1tMs6DWqjtTPotUBt9NEUy9g
arXiv.org
Large Memory Layers with Product Keys
This paper introduces a structured memory which can be easily integrated into a neural network. The memory is very large by design and significantly increases the capacity of the architecture, by...
Новости из чатика #NLP в ODS:
VK Research зарелизили код распаралелленного и ускоренного алгоритма построения словаря для BPE. Говорят, что на практике ускоряет в 5-7 раз.
Код: github.com/VKCOM/YouTokenToMe
Пост на медиуме: medium.com/@vktech/youtokentome-a-tool-for-quick-text-tokenization-from-the-vk-team-aa6341215c5a
VK Research зарелизили код распаралелленного и ускоренного алгоритма построения словаря для BPE. Говорят, что на практике ускоряет в 5-7 раз.
Код: github.com/VKCOM/YouTokenToMe
Пост на медиуме: medium.com/@vktech/youtokentome-a-tool-for-quick-text-tokenization-from-the-vk-team-aa6341215c5a
GitHub
GitHub - VKCOM/YouTokenToMe: Unsupervised text tokenizer focused on computational efficiency
Unsupervised text tokenizer focused on computational efficiency - VKCOM/YouTokenToMe
Сравнение BERT и XLNet.
TL;DR
1. Trained on the same data with an almost identical training recipe, XLNet outperforms BERT by a sizable margin on all the datasets.
1. The gains of training on 10x more data (comparing XLNet-Large-wikibooks and XLNet-Large) are smaller than the gains of switching from BERT to XLNet on 8 out of 11 benchmarks.
1. On some of the benchmarks such as CoLA and MRPC, the model trained on more data underperforms the model trained on less data.
TL;DR
1. Trained on the same data with an almost identical training recipe, XLNet outperforms BERT by a sizable margin on all the datasets.
1. The gains of training on 10x more data (comparing XLNet-Large-wikibooks and XLNet-Large) are smaller than the gains of switching from BERT to XLNet on 8 out of 11 benchmarks.
1. On some of the benchmarks such as CoLA and MRPC, the model trained on more data underperforms the model trained on less data.
#rl
На фоне домашки exploration vs exploitation.
Интересный блогпост про Montezuma’s Revenge, почему решение этой игры так важно для RL и почему решения 2018 года - это не совсем то, что нужно.
https://medium.com/@awjuliani/on-solving-montezumas-revenge-2146d83f0bc3
На фоне домашки exploration vs exploitation.
Интересный блогпост про Montezuma’s Revenge, почему решение этой игры так важно для RL и почему решения 2018 года - это не совсем то, что нужно.
https://medium.com/@awjuliani/on-solving-montezumas-revenge-2146d83f0bc3
Medium
On “solving” Montezuma’s Revenge
Looking beyond the hype of recent Deep RL successes
DL in NLP
#rl На этой неделе встречаемся обсудить лекции и домашки по следующим темам: 1. DQN 1. Exploration vs exploitation (в тч байесовские методы) 1. Policy gradients Домашки жёсткие, но интересные. Приходите. Четверг, 19:00, 522 Цифра
#rl
Всем привет! Напоминаю, что сегодня собираемся в 19 часов в 522 Цифра
Всем привет! Напоминаю, что сегодня собираемся в 19 часов в 522 Цифра
Давно тут ничего не было NLP-шного
RoBERTa: A Robustly Optimized BERT Pretraining Approach
Liu et al. [FAIR]
arxiv.org/abs/1907.11692
Абстракт абстракта:
We find that BERT was significantly undertrained, and can match or exceed the performance of every model published after it.
Авторы поигрались с бертом (а заодно переписали его на 🔥), сделали маскирование не статическое (только на этапе предобработки данных), а динамическое (генерировать новую маску каждый раз, когда видишь пример), посмотрели на NSP и сказали, что без него на самом деле лучше, а также подкрутили гиперпараметры. Вроде бы это всё, что я заметил, прочитав статью по диагонали, если что-то упустил - пишите в чат.
Ссылку нашёл в прекрасном канале @j_links
RoBERTa: A Robustly Optimized BERT Pretraining Approach
Liu et al. [FAIR]
arxiv.org/abs/1907.11692
Абстракт абстракта:
We find that BERT was significantly undertrained, and can match or exceed the performance of every model published after it.
Авторы поигрались с бертом (а заодно переписали его на 🔥), сделали маскирование не статическое (только на этапе предобработки данных), а динамическое (генерировать новую маску каждый раз, когда видишь пример), посмотрели на NSP и сказали, что без него на самом деле лучше, а также подкрутили гиперпараметры. Вроде бы это всё, что я заметил, прочитав статью по диагонали, если что-то упустил - пишите в чат.
Ссылку нашёл в прекрасном канале @j_links
arXiv.org
RoBERTa: A Robustly Optimized BERT Pretraining Approach
Language model pretraining has led to significant performance gains but careful comparison between different approaches is challenging. Training is computationally expensive, often done on private...
Спасибо @Cookie_theif за ссылку на WikiMatrix
Что это такое. Это параллельные корпуса текстов на 85 языках из распаршенной википедии. 132 млн предложений (это очень много) из которых всего 34 млн параллельные с английским (то есть он действительно многоязычный). Корпусов, как известно, много не бывает. Больших корпусов тем более.
Подход:
We use LASER's bitext mining approach and encoder for 93 languages. We do not use the inter-language links provided by Wikipedia, but search over all Wikipedia artickes of each language. We approach the computational challenge to mine in almost 600 million sentences by using fast indexing and similarity search with FAISS. Prior to mining parallel sentences, we perform sentence segmentation, deduplication and language identification.
Для того, чтобы скачать требуемую вам пару языков, достаточно wget’нуть ссылку вида
где xx-yy – это интересующая вас пара (например, ru-en).
Что это такое. Это параллельные корпуса текстов на 85 языках из распаршенной википедии. 132 млн предложений (это очень много) из которых всего 34 млн параллельные с английским (то есть он действительно многоязычный). Корпусов, как известно, много не бывает. Больших корпусов тем более.
Подход:
We use LASER's bitext mining approach and encoder for 93 languages. We do not use the inter-language links provided by Wikipedia, but search over all Wikipedia artickes of each language. We approach the computational challenge to mine in almost 600 million sentences by using fast indexing and similarity search with FAISS. Prior to mining parallel sentences, we perform sentence segmentation, deduplication and language identification.
Для того, чтобы скачать требуемую вам пару языков, достаточно wget’нуть ссылку вида
https://dl.fbaipublicfiles.com/laser/WikiMatrix/v1/WikiMatrix.xx-yy.tsv.gz
где xx-yy – это интересующая вас пара (например, ru-en).
GitHub
LASER/tasks/WikiMatrix at main · facebookresearch/LASER
Language-Agnostic SEntence Representations. Contribute to facebookresearch/LASER development by creating an account on GitHub.
Huawei Speech & Language организует в Москве серию NLP-митапов. Первый из них состоится 6 августа и будет посвящён бертоведению.
Докладчики:
Никита Сметанин, Replika.ai - ВERT for dialogs: production-scale approach
Михаил Архипов, iPavlov, МФТИ - Multilingualism of BERT
Invited speaker Dr. Qun Liu, Chief Research Scientist of Noah's Ark Lab, Huawei
Место: Ленинградский проспект, 36 стр. 11 (Офисный центр SOK Динамо)
Для участия нужна регистрация: sites.google.com/view/moscow-nlp
Докладчики:
Никита Сметанин, Replika.ai - ВERT for dialogs: production-scale approach
Михаил Архипов, iPavlov, МФТИ - Multilingualism of BERT
Invited speaker Dr. Qun Liu, Chief Research Scientist of Noah's Ark Lab, Huawei
Место: Ленинградский проспект, 36 стр. 11 (Офисный центр SOK Динамо)
Для участия нужна регистрация: sites.google.com/view/moscow-nlp
Google
Huawei Speech & Language
An open seminar on modern approaches to Speech and Language Processing. Free for everyone.
Organized by Huawei Moscow Speech & Language Team (Huawei Noah's Ark Lab).
Organized by Huawei Moscow Speech & Language Team (Huawei Noah's Ark Lab).
#rl
Мы довольно быстро движемся по яндексовому курсу и у нас получается около недели в запасе. Поэтому предлагаю в этот четверг встретиться в формате практического занятия на котором разберём самые интересные домашки и пофиксим баги друг друга.
Ну и, конечно, надо просмотреть и выполнить что можете по 7 8 9 лекциям
Они не такие сложные, как я думал (по крайней мере 7 и 8)
Время и место стандартные: 19 часов, 522 Цифра
не забудьте ноутбуки
Мы довольно быстро движемся по яндексовому курсу и у нас получается около недели в запасе. Поэтому предлагаю в этот четверг встретиться в формате практического занятия на котором разберём самые интересные домашки и пофиксим баги друг друга.
Ну и, конечно, надо просмотреть и выполнить что можете по 7 8 9 лекциям
Они не такие сложные, как я думал (по крайней мере 7 и 8)
Время и место стандартные: 19 часов, 522 Цифра
не забудьте ноутбуки
#rl
Если вы всё ещё чувствуете, что не понимаете как работает policy gradient или actor-critic (что абсолютно нормально, я понял их раза с 4), очень советую внимательно просмотреть лекции Сергея Левина из Berkeley. Вместо примерно полуторачасового объяснения Яндекса с опусканием матана за всем этим вам предоставят почти 3 часа опускания матаном вас. Но если смотреть очень внимательно, всё очень хорошо объяснено.
1. Policy Gradients
2. Actor-Critic Algorithms
А ещё по-видимому мы закончим наш курс первой домашкой Berkeley cs294-112 по imitation learning
Если вы всё ещё чувствуете, что не понимаете как работает policy gradient или actor-critic (что абсолютно нормально, я понял их раза с 4), очень советую внимательно просмотреть лекции Сергея Левина из Berkeley. Вместо примерно полуторачасового объяснения Яндекса с опусканием матана за всем этим вам предоставят почти 3 часа опускания матаном вас. Но если смотреть очень внимательно, всё очень хорошо объяснено.
1. Policy Gradients
2. Actor-Critic Algorithms
А ещё по-видимому мы закончим наш курс первой домашкой Berkeley cs294-112 по imitation learning
YouTube
CS294-112 Fa18 9/5/18
Кажется, я пропустил статью в которой unsupervised MT превзошёл supervised-модель 2014 года. Но факт забавный.