DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
加入频道
Hierarchical Decision Making by Generating and Following Natural Language Instructions
Hengyuan Hu et al. [FAIR]
arxiv.org/abs/1906.00744

Создают игровую среду со стратегическим планированием и микроконтролем - StarCraft на совсем минималках.

Команда из двоих людей наигрывает против rule-based противника 5392 игр, выигрывает чуть больше, чем в половине случаев. Один игрок выступает в роли стратега, давая высокоуровневые инструкции, второй выполняет микроконтроль, в среднем по 7 команд юнитам на одну инструкцию. В результате собран датасет из 76к пар инструкций-исполнений.

Архитектура решения:

- Инструктор (он же стратег) обучается мапить состояние игры в высокоуровневые инструкции на естественном языке. Обучается supervised.
- Исполнитель обучается давать команды юнитам на основе информации с игрового поля, истории и, возможно, инструкций. Обучается supervised.

Экспериментируют с моделями инструктора, также обучают архитектуру без него, чтобы понять вклад представлений стратегии на естественном языке и способа их моделирования в win-rate игры.

Code, models and data https://github.com/facebookresearch/minirts
Всем привет!
Судя по опросу в doodle, наибольшее число людей проголосовало за проведение reading club в четверг (10 октября).
Всем снова привет!

Итак, с датой и временем вроде определились - 10 октября (четверг), в 19:00, осталось решить два вопроса:
1) смогут ли выступающие прийти в это время
2) раскидать\разобрать статьи

Для решения первого ниже будет прикреплена голосовалка, для второго предлагаю провернуть уже проверенную схему - раскидать статьи случайно между выступающими. Если что, чат всегда открыт для обсужений.
Сможешь прийти 10 октября(четверг) в 19:00 ?
public poll

Посмотрю стрим – 64
👍👍👍👍👍👍👍 68%

Да, приду послушать – 16
👍👍 17%

Нет, не смогу – 10
👍 11%

Да, приду, буду выступать – 4
▫️ 4%

👥 94 people voted so far.
Я вас уже наверное достал голосовалками, но последний вопрос - место
public poll

ШАД – 44
👍👍👍👍👍👍👍 56%

ФКН ВШЭ – 30
👍👍👍👍👍 38%

Другое (в чатик) – 5
👍 6%

👥 79 people voted so far.
Всем привет!
Мы наконец решили все орг вопросы, поэтому reading club быть!

Итак, место встречи - корпус ФКН ВШЭ (Покровский бульвар 11), 10 октября(четверг). Встреча начнется в 19:00 и пройдет ориентировочно до 20:30.
Форма регистрации https://forms.gle/y8ieis3JrGomv7z77

UPD: Форма закроется в среду вечером, поэтому поторопитесь.
PyTorch XLA потихоньку оживает. Скоро можно будет тренировать языковые модели за несколько часов на 🔥+TPU


At last, language model pretraining with PyTorch+TPUs https://github.com/allenai/tpu_pretrain

Our code trains PyTorch BERT/RoBERTa on TPUs, which is faster and cheaper than GPUs.

Also check the repo for a more detailed comparison between TPUs/GPUs on PyTorch/Tensorflow.


https://twitter.com/i_beltagy/status/1181320500783415296
DL in NLP pinned «Всем привет! Мы наконец решили все орг вопросы, поэтому reading club быть! Итак, место встречи - корпус ФКН ВШЭ (Покровский бульвар 11), 10 октября(четверг). Встреча начнется в 19:00 и пройдет ориентировочно до 20:30. Форма регистрации https://forms.gle/…»
С просторов ODS
github.com/thunlp/PLMpapers
BERT-related papers
github.com/tomohideshibata/BERT-related-papers

В начале я думал, что это просто список всех статей, которые ссылаются на берт и что это бессмысленно. Но потом я увидел что они разбиты по категориям (e.g. Inside BERT, Multilingual) и это уже выглядит гораздо полезнее. В общем выбирайте интересный вам топик и читайте на досуге.

За ссылку спасибо @vaklyuenkov
Итак, до reading club осталось меньше 4 часов.
Обязательно возьмите паспорт/права ✌️
Update: reading club будет а аудитории D501
Update2: Вход строго через Вход 3 (он же корпус S).

Это вход со стороны Дурасовского переулка, ближе к курской.
А кроме нашего rearing club сегодня проходит PyTorch Developer Conference

Расписание: https://t.co/9I6kQoJGA0
Стрим: https://t.co/tLMzf51tm0
А тем временем reading club уже идёт и стрим доступен на Twitch
twitch.tv/cookie_thief_?sr=a
PyTorch 1.3 is out 🎉

- named tensor support
- quantization
- mobile
- hyperparameter support for tensorboard
- более строгая типизация

Также заговорили про TPU - можно считать, что началась альфа
Если вы не знаете, что такое Named Tensor и почему вы должны его использовать: nlp.seas.harvard.edu/NamedTensor

Гитхаб: github.com/pytorch/pytorch/releases

Блог: ai.facebook.com/blog/pytorch-13-adds-mobile-privacy-quantization-and-named-tensors/
Go 🔥

Finally managed to release this data!

Some highlights:
From CVPR 2018-2019, PyTorch has grown from 82 -> 280 papers, while TensorFlow has gone from 116 -> 125 papers.

For ACL
PyTorch: 26 -> 103
TF: 34 -> 33

The trend continues at all the major research conferences.

twitter.com/cHHillee/status/1182328989785952257
Investigating the Effectiveness of Representations Based on Word-Embeddings in Active Learning for Labelling Text Datasets
Lu et al.
arxiv.org/abs/1910.03505

Очень простая и практическая статья, сравнивающая использование различных классификаторов для active learning. Основной вывод прост: не используйте TF-IDF/fastText, используйте BERT в качестве векторизатора и active learning будет заметно эффективнее.
Несмотря на очевидный вывод, понял, что сам никогда не думал использовать BERT для active learning; и теперь видно, что был неправ.

Справочка: active learning - это когда вы итерационно размечаете свой датасет и на каждой следующей итерации выбераете примеры на разметку не случайно, а ранжируете их по “неуверенности” вашей модели (выбираете те, на которых модель максимально неуверена). Таким образом вы размечаете наиболее полезные для улучшения классификатора примеры.