BERT-related papers
github.com/tomohideshibata/BERT-related-papers
В начале я думал, что это просто список всех статей, которые ссылаются на берт и что это бессмысленно. Но потом я увидел что они разбиты по категориям (e.g. Inside BERT, Multilingual) и это уже выглядит гораздо полезнее. В общем выбирайте интересный вам топик и читайте на досуге.
За ссылку спасибо @vaklyuenkov
github.com/tomohideshibata/BERT-related-papers
В начале я думал, что это просто список всех статей, которые ссылаются на берт и что это бессмысленно. Но потом я увидел что они разбиты по категориям (e.g. Inside BERT, Multilingual) и это уже выглядит гораздо полезнее. В общем выбирайте интересный вам топик и читайте на досуге.
За ссылку спасибо @vaklyuenkov
GitHub
GitHub - tomohideshibata/BERT-related-papers: BERT-related papers
BERT-related papers. Contribute to tomohideshibata/BERT-related-papers development by creating an account on GitHub.
DL in NLP
Всем привет! Мы наконец решили все орг вопросы, поэтому reading club быть! Итак, место встречи - корпус ФКН ВШЭ (Покровский бульвар 11), 10 октября(четверг). Встреча начнется в 19:00 и пройдет ориентировочно до 20:30. Форма регистрации https://forms.gle/…
У вас ещё есть время зарегистрироваться на reading club, торопитесь)
Итак, до reading club осталось меньше 4 часов.
Обязательно возьмите паспорт/права ✌️
Обязательно возьмите паспорт/права ✌️
Update2: Вход строго через Вход 3 (он же корпус S).
Это вход со стороны Дурасовского переулка, ближе к курской.
Это вход со стороны Дурасовского переулка, ближе к курской.
А кроме нашего rearing club сегодня проходит PyTorch Developer Conference
Расписание: https://t.co/9I6kQoJGA0
Стрим: https://t.co/tLMzf51tm0
Расписание: https://t.co/9I6kQoJGA0
Стрим: https://t.co/tLMzf51tm0
Facebook
Log in to Facebook
Log in to Facebook to start sharing and connecting with your friends, family and people you know.
А тем временем reading club уже идёт и стрим доступен на Twitch
twitch.tv/cookie_thief_?sr=a
twitch.tv/cookie_thief_?sr=a
Twitch
cookie_thief_ - Twitch
cookie_thief_ streams live on Twitch! Check out their videos, sign up to chat, and join their community.
PyTorch 1.3 is out 🎉
- named tensor support
- quantization
- mobile
- hyperparameter support for tensorboard
- более строгая типизация
Также заговорили про TPU - можно считать, что началась альфа
Если вы не знаете, что такое Named Tensor и почему вы должны его использовать: nlp.seas.harvard.edu/NamedTensor
Гитхаб: github.com/pytorch/pytorch/releases
Блог: ai.facebook.com/blog/pytorch-13-adds-mobile-privacy-quantization-and-named-tensors/
- named tensor support
- quantization
- mobile
- hyperparameter support for tensorboard
- более строгая типизация
Также заговорили про TPU - можно считать, что началась альфа
Если вы не знаете, что такое Named Tensor и почему вы должны его использовать: nlp.seas.harvard.edu/NamedTensor
Гитхаб: github.com/pytorch/pytorch/releases
Блог: ai.facebook.com/blog/pytorch-13-adds-mobile-privacy-quantization-and-named-tensors/
nlp.seas.harvard.edu
Tensor Considered Harmful
Named tensors for better deep learning code.
Colab-ноутбуки с примерами использования TPU в PyTorch
twitter.com/PyTorch/status/1182437662365339648
twitter.com/PyTorch/status/1182437662365339648
Twitter
PyTorch
PyTorch Cloud TPU and TPU pod support is now in general availability on @GCPcloud You can also try it right now on Colab, for free at https://t.co/G6D3dfQpux
Go 🔥
Finally managed to release this data!
Some highlights:
From CVPR 2018-2019, PyTorch has grown from 82 -> 280 papers, while TensorFlow has gone from 116 -> 125 papers.
For ACL
PyTorch: 26 -> 103
TF: 34 -> 33
The trend continues at all the major research conferences.
twitter.com/cHHillee/status/1182328989785952257
Finally managed to release this data!
Some highlights:
From CVPR 2018-2019, PyTorch has grown from 82 -> 280 papers, while TensorFlow has gone from 116 -> 125 papers.
For ACL
PyTorch: 26 -> 103
TF: 34 -> 33
The trend continues at all the major research conferences.
twitter.com/cHHillee/status/1182328989785952257
Twitter
Horace He
Finally managed to release this data! Some highlights: From CVPR 2018-2019, PyTorch has grown from 82 -> 280 papers, while TensorFlow has gone from 116 -> 125 papers. For ACL PyTorch: 26 -> 103 TF: 34 -> 33 The trend continues at all the major research conferences.…
Investigating the Effectiveness of Representations Based on Word-Embeddings in Active Learning for Labelling Text Datasets
Lu et al.
arxiv.org/abs/1910.03505
Очень простая и практическая статья, сравнивающая использование различных классификаторов для active learning. Основной вывод прост: не используйте TF-IDF/fastText, используйте BERT в качестве векторизатора и active learning будет заметно эффективнее.
Несмотря на очевидный вывод, понял, что сам никогда не думал использовать BERT для active learning; и теперь видно, что был неправ.
Справочка: active learning - это когда вы итерационно размечаете свой датасет и на каждой следующей итерации выбераете примеры на разметку не случайно, а ранжируете их по “неуверенности” вашей модели (выбираете те, на которых модель максимально неуверена). Таким образом вы размечаете наиболее полезные для улучшения классификатора примеры.
Lu et al.
arxiv.org/abs/1910.03505
Очень простая и практическая статья, сравнивающая использование различных классификаторов для active learning. Основной вывод прост: не используйте TF-IDF/fastText, используйте BERT в качестве векторизатора и active learning будет заметно эффективнее.
Несмотря на очевидный вывод, понял, что сам никогда не думал использовать BERT для active learning; и теперь видно, что был неправ.
Справочка: active learning - это когда вы итерационно размечаете свой датасет и на каждой следующей итерации выбераете примеры на разметку не случайно, а ранжируете их по “неуверенности” вашей модели (выбираете те, на которых модель максимально неуверена). Таким образом вы размечаете наиболее полезные для улучшения классификатора примеры.
Unified Language Model Pre-training for Natural Language Understanding and Generation
Dong et al. [Microsoft Research]
arxiv.org/abs/1905.03197
Новый BERT от Microsoft. На задачах NLU сопоставим с BERT, на задачах NLG - SOTA. Основная идея: использовать несколько задач для предтренировки: задачу ELMO, задачу BERT и задачу seq2seq. Seq2seq сделан довольно забавно: это всё то же восстановление MASK-токенов, как и в BERT, но токены из левого сегмента могут смотреть только на себя. С учётом teacher forcing, задача очень близка к обычному seq2seq.
Также в статье подробно описано, как именно они применяли предобученную модель к прикладным задачам. Советую почитать.
Dong et al. [Microsoft Research]
arxiv.org/abs/1905.03197
Новый BERT от Microsoft. На задачах NLU сопоставим с BERT, на задачах NLG - SOTA. Основная идея: использовать несколько задач для предтренировки: задачу ELMO, задачу BERT и задачу seq2seq. Seq2seq сделан довольно забавно: это всё то же восстановление MASK-токенов, как и в BERT, но токены из левого сегмента могут смотреть только на себя. С учётом teacher forcing, задача очень близка к обычному seq2seq.
Также в статье подробно описано, как именно они применяли предобученную модель к прикладным задачам. Советую почитать.
arXiv.org
Unified Language Model Pre-training for Natural Language...
This paper presents a new Unified pre-trained Language Model (UniLM) that can be fine-tuned for both natural language understanding and generation tasks. The model is pre-trained using three types...
Natural Language State Representation for Reinforcement Learning
Erez Schwartz et al. Technion
arxiv.org/abs/1910.02789
RL страдает от "проклятья размемерности".
Если использовать естественный язык для семантического представления состояний, например, описывая что просиходит на экране в игре Doom, то в сравнении с vision-based агентами:
- сходимость быстрее
- perform better
- more robust
- better transfer
Информация для представления на естественном языке извлекалась из игровых фич и семантической сегментации с наложенной сеткой для понимания позиции объектов: далеко-близко, правее-левее.
Сравнивались:
▫️Агенты:
- DQN
- PPO
▫️Представления:
- Semantic segmentation representations (provided by the environment)
- Natural language representation (features from environment + semantic segmentation + Word2Vec или GloVe + TextCNN)
- Raw image (CNN)
- Feature vector (features from environment + MLP)
▫️Игровые сценарии:
- Пристрели монстра
- Не умри от яда собирая аптечки
- Уклоняйся от файерболов
- Defend the center - отстреливайся от набегающих монстров, стоя на месте
- Адище
Erez Schwartz et al. Technion
arxiv.org/abs/1910.02789
RL страдает от "проклятья размемерности".
Если использовать естественный язык для семантического представления состояний, например, описывая что просиходит на экране в игре Doom, то в сравнении с vision-based агентами:
- сходимость быстрее
- perform better
- more robust
- better transfer
Информация для представления на естественном языке извлекалась из игровых фич и семантической сегментации с наложенной сеткой для понимания позиции объектов: далеко-близко, правее-левее.
Сравнивались:
▫️Агенты:
- DQN
- PPO
▫️Представления:
- Semantic segmentation representations (provided by the environment)
- Natural language representation (features from environment + semantic segmentation + Word2Vec или GloVe + TextCNN)
- Raw image (CNN)
- Feature vector (features from environment + MLP)
▫️Игровые сценарии:
- Пристрели монстра
- Не умри от яда собирая аптечки
- Уклоняйся от файерболов
- Defend the center - отстреливайся от набегающих монстров, стоя на месте
- Адище
exbert.net - A Visual Analysis Tool to Explore Learned Representations in Transformers Models
Удобная тулза для визуализации внутренних представлений BERT. Астроголи объявили удвоение статей по анализу трансформеров на следующем ACL.
twitter.com/Ben_Hoov/status/1183823783754371076
Удобная тулза для визуализации внутренних представлений BERT. Астроголи объявили удвоение статей по анализу трансформеров на следующем ACL.
twitter.com/Ben_Hoov/status/1183823783754371076
Twitter
Ben Hoover
Pleased to announce exBERT, an interactive tool to explore the embeddings and attention of Transformer models at different layers, with different heads. Demo: https://t.co/FxFLDutYmK Paper: https://t.co/1x18EbgklP #NLProc With @sebgehr @hen_str @MITIBMLab…