DL in NLP

На днях прошёл TF Dev Summit - главная конференция TensorFlow, на которой показывают новые фичи, а также то, чего добилось коммьюнити за последний год. Обычно, про него как-то мало пишут в новостях, поэтому давайте это исправим.

Записи всех выступлений доступны на офсайте, а очень короткое саммари из тех пунктов, которые заинтересовали меня можете почитать тут.

Telegraph

TF Dev Summit 2020 summary

Который уже год я встречаю людей, которые рассказывают мне про новую классную фичу через полгода после того, как она была анонсирована на TF dev summit. Давайте не будем этими людьми и разберёмся в основных нововведениях прямо сейчас. Core 1. Сделали ноый…

3.15K viewsnlpcontroller_bot, 17:42

👍 15

DL in NLP

A Survey of Long-Term Context in Transformers
pragmatic.ml/a-survey-of-methods-for-incorporating-long-term-context/

Хороший обзор статей, в которых пытаются работать с текстами длинее 512 токенов.

1. Sparse Transformers
1. Adaptive Span Transformers
1. Transformer-XL
1. Compressive Transformers
1. Reformer
1. Routing Transformer

machine learning musings

A Survey of Long-Term Context in Transformers

Exploring 6 noteworthy approaches for incorporating longer-term context in transformer models.

2.29K viewsnlpcontroller_bot, 19:30

👍 15

DL in NLP

NLP Newsletter #7

Тык

2.89K viewsnlpcontroller_bot, 21:52

👍 9

DL in NLP

🤗 Awesome NLP Paper Discussions
github.com/huggingface/awesome-papers

"Each week, the Hugging Face team has a science day where one team member presents an awesome NLP paper. We've decided to share this discussion with the community. See planned future discussions below."

GitHub

GitHub - huggingface/awesome-papers: Papers & presentation materials from Hugging Face's internal science day

Papers & presentation materials from Hugging Face's internal science day - huggingface/awesome-papers

2.48K viewsnlpcontroller_bot, 17:52

👍 12

DL in NLP

Немножно разбавлю ваши ленты чем-нибудь не про вирус

1. Technical Writing Courses - два небольших (3 часа в сумме) курса по тому, как писать технические тексты. Должно быть полезно как для документации, так и для статей.
1. Читаем статьи за вас. Январь — Февраль 2020
1. How to generate text: using different decoding methods for language generation with Transformers - хороший пост с основными методами генерации текста и примерами кода (от beam search до nucleus sampling)
1. В Lightning добавили profiler
1. Pre-trained Models for Natural Language Processing: A Survey, Qiu et al - ещё одна обзорная статья по предтренировке в NLP

Сидите дома, читайте статьи, не болейте.

Google for Developers

Technical Writing | Google for Developers

Technical Writing Courses for Engineers

2.17K viewsnlpcontroller_bot, edited 18:43

👍 18

DL in NLP

Скорее всего в этом чате мало олдфагов, кто помнит, что именно Валя основал курс по NLP от iPavlov. Теперь он делает новый курс и вы всё ещё можете на него зарегистрироваться.

1.82K viewsVlad Lialin, 17:59

DL in NLP

Forwarded from Valentin Malykh

всем привет, вероятно, не все слышали, что Huawei Russian Research Institute проводит (онлайн) курс по обработке естественного языка (NLP); лучшим студентам курса будут выделены облачные мощности для выполнения заданий и проектов; на курсе прошло 4 занятия, но до сдачи первого задания еще две недели; записаться на курс и узнать больше можно тут: https://registerathuawei.timepad.ru/event/1269978/

registerathuawei.timepad.ru

Natural Language Processing from Huawei Russian Research Institute / События на TimePad.ru

Huawei Russian Research Institute (Huawei RRI) в рамках программы взаимодействия с ведущими российскими университетами (МФТИ, МГУ, МГТУ им. Н. Э. Баумана и др.) представляет курс “Natural Language Processing” или “Обработка естественного языка”, который пройдет…

2.22K viewsVlad Lialin, 17:59

DL in NLP

Google зарелизила новую версию диалогового датасета - Taskmaster-2.
17к диалогов, 7 доменов

2.19K viewsnlpcontroller_bot, 10:55

🔥 25

DL in NLP

Rethinking Batch Normalization in Transformers
Shen et al.
arxiv.org/abs/2003.07845

Авторы изучают нормализацию в трансформерах. Первое, что нашли: дисперсия in-batch статистик в NLP задачах на порядки выше, чем в CV. А следовательно она большая и в градиентах, а следовательно она может влиять на сходимость - как быстро и куда. Дальше они предлагают новый тип нормализации - PowerNorm - и доказывают, что он (так же, как и BatchNorm) повышает липциц-гладкость поверхности лосса. Эксперименты показывают буст (небольшой) в машинном переводе и (заметный) в языковом моделировании.

Нам надо больше таких исследований - в архитектуру трансформера заложено много общепринятых, но мало изученных практик. Давайте эти практики проверять и улучшать.

2.09K viewsnlpcontroller_bot, edited 18:04

👍 26

DL in NLP

2.14K viewsnlpcontroller_bot, 18:04

DL in NLP

Вчера было 1 апреля, а это означает конференцию SIGBOVIK в CMU. Приметившиеся статьи:

1. Новый алгоритм сортировки - turk sort - "uses human intelligence to compare the elements of a (possibily) heterogeneous list"
1. Artificial General Relativity - "In this paper I (switching to ’I’ to avoid sounding pretentious with ’we’) introduce Artificial General Relativity (AGR) which, when achieved, will allow us to control gravity and spacetime."
1. Image-to-image neural network for addition and subtraction of a pair of not very large numbers

Proceedings: тык
Аудиозапись конференции: тык

GitHub

GitHub - cole-k/turksort: 👥 Sorting powered by human intelligence

👥 Sorting powered by human intelligence. Contribute to cole-k/turksort development by creating an account on GitHub.

1.89K viewsnlpcontroller_bot, 15:47

👍 4

DL in NLP

2.99K viewsVlad Lialin, 15:58

DL in NLP

Deep Learning Reproducibility with TensorFlow
youtu.be/Ys8ofBeR2kA

Хороший обзор проблемы воспроизводимости в DL и как её решать.
Рекомендуется для просмотров всем - воспроизводимость важна и в исследованиях (ваши метрики в статье) и в проде (в regression testing, например).
Не только релевантно для TF, но и легко адаптируется под PyTorch.

Из моих наблюдений:
1. разный random seed может менять вашу метрику вплоть до 5-10 пунктов - см один из постов выше
1. если вы забыли поставить какой-то один seed (python, numpy, cuda) - то же самое (даже если все остальные сиды стоят)
1. смена GPU на CPU: ~0.5 пункта
1. недетерминированность GPU: - ~0.1 пункт

Я не удивлюсь, если на самом деле эти цифры могут быть заметно больше.

По воспроиизводимости в PyTorch рекомендую мой небольшой гайд

спасибо @Vanshi87 из чата за ссылку на видео

YouTube

Deep Learning Reproducibility with TensorFlow

This video shows how to get deterministic outputs when using TensorFlow, so that the outputs are reproducible. Everything should be perfectly repeatable.

I created a Jupyter notebook to demonstrate this at: https://github.com/ageron/handson-ml/blob/mast…

2.13K viewsnlpcontroller_bot, edited 14:58

👍 10

DL in NLP

Emerging Cross-lingual Structure in Pretrained Language Models
Wu, Conneau, et al. [FAIR]
arxiv.org/abs/1911.01464

Статья для тех, кто не любит SOTA-driven approach. Авторы задают конкретные вопросы про мультиязычные модели и пытаются на них ответить:

Q: Важны ли anchor points (одинаковые по написанию и смыслу токены, которые автоматически мапятся в один эмбеддинг ещё на стадии предобработки) для предтренировки mBERT?
A: Слабо важны, дают 1-2 пункта на downstream-задачах

Q: Насколько важен model parameter sharing между языками?
A: Критически важен, для далёких языков (En-Ru, En-Zh) качество downstream задач падает почти до уровня случайного выбора, если шарить только половину параметров

Q: Хорошо ли мапятся векторные представления слова и его перевода (контекстуальные и неконтекстуальные) если использовать представления mBERT?
A: Примерно на уровне fastText

Q: Насколько похожи обученные нейросети? Похож ли одноязычный английский BERT на одноязычный русский BERT? А на мультиязычный En-Ru BERT?
A: Похожи, для близких языков схожесть больше, чем для далёких

1.77K viewsnlpcontroller_bot, 20:02

👍 15

DL in NLP

Советую, если интересуетесь zero-shot multilingual transfer. Версия статьи с выделенными интересными моментами.

1.62K viewsnlpcontroller_bot, 20:02

DL in NLP

1911.01464_highlighted.pdf

1.1 MB

2.51K viewsnlpcontroller_bot, 20:02

DL in NLP

1.73K viewsVlad Lialin, 20:05