DL in NLP

Вчера было 1 апреля, а это означает конференцию SIGBOVIK в CMU. Приметившиеся статьи:

1. Новый алгоритм сортировки - turk sort - "uses human intelligence to compare the elements of a (possibily) heterogeneous list"
1. Artificial General Relativity - "In this paper I (switching to ’I’ to avoid sounding pretentious with ’we’) introduce Artificial General Relativity (AGR) which, when achieved, will allow us to control gravity and spacetime."
1. Image-to-image neural network for addition and subtraction of a pair of not very large numbers

Proceedings: тык
Аудиозапись конференции: тык

GitHub

GitHub - cole-k/turksort: 👥 Sorting powered by human intelligence

👥 Sorting powered by human intelligence. Contribute to cole-k/turksort development by creating an account on GitHub.

1.89K viewsnlpcontroller_bot, 15:47

👍 4

DL in NLP

2.99K viewsVlad Lialin, 15:58

DL in NLP

Deep Learning Reproducibility with TensorFlow
youtu.be/Ys8ofBeR2kA

Хороший обзор проблемы воспроизводимости в DL и как её решать.
Рекомендуется для просмотров всем - воспроизводимость важна и в исследованиях (ваши метрики в статье) и в проде (в regression testing, например).
Не только релевантно для TF, но и легко адаптируется под PyTorch.

Из моих наблюдений:
1. разный random seed может менять вашу метрику вплоть до 5-10 пунктов - см один из постов выше
1. если вы забыли поставить какой-то один seed (python, numpy, cuda) - то же самое (даже если все остальные сиды стоят)
1. смена GPU на CPU: ~0.5 пункта
1. недетерминированность GPU: - ~0.1 пункт

Я не удивлюсь, если на самом деле эти цифры могут быть заметно больше.

По воспроиизводимости в PyTorch рекомендую мой небольшой гайд

спасибо @Vanshi87 из чата за ссылку на видео

YouTube

Deep Learning Reproducibility with TensorFlow

This video shows how to get deterministic outputs when using TensorFlow, so that the outputs are reproducible. Everything should be perfectly repeatable.

I created a Jupyter notebook to demonstrate this at: https://github.com/ageron/handson-ml/blob/mast…

2.13K viewsnlpcontroller_bot, edited 14:58

👍 10

DL in NLP

Emerging Cross-lingual Structure in Pretrained Language Models
Wu, Conneau, et al. [FAIR]
arxiv.org/abs/1911.01464

Статья для тех, кто не любит SOTA-driven approach. Авторы задают конкретные вопросы про мультиязычные модели и пытаются на них ответить:

Q: Важны ли anchor points (одинаковые по написанию и смыслу токены, которые автоматически мапятся в один эмбеддинг ещё на стадии предобработки) для предтренировки mBERT?
A: Слабо важны, дают 1-2 пункта на downstream-задачах

Q: Насколько важен model parameter sharing между языками?
A: Критически важен, для далёких языков (En-Ru, En-Zh) качество downstream задач падает почти до уровня случайного выбора, если шарить только половину параметров

Q: Хорошо ли мапятся векторные представления слова и его перевода (контекстуальные и неконтекстуальные) если использовать представления mBERT?
A: Примерно на уровне fastText

Q: Насколько похожи обученные нейросети? Похож ли одноязычный английский BERT на одноязычный русский BERT? А на мультиязычный En-Ru BERT?
A: Похожи, для близких языков схожесть больше, чем для далёких

1.77K viewsnlpcontroller_bot, 20:02

👍 15

DL in NLP

Советую, если интересуетесь zero-shot multilingual transfer. Версия статьи с выделенными интересными моментами.

1.62K viewsnlpcontroller_bot, 20:02

DL in NLP

1911.01464_highlighted.pdf

1.1 MB

2.51K viewsnlpcontroller_bot, 20:02

DL in NLP

1.73K viewsVlad Lialin, 20:05

DL in NLP

Интересные штуки одной строкой:

Для новичков (и не только):
1. d2l.ai - очень большая книга по диплёрнингу с кучей numpy-имплементаций. И все эти имплементации вы можете запускать прямо в браузере.
1. How to read research papers by Andwer Ng

чуть более advanced:
1. Jigsaw Multilingual Toxic Comment Classification - Kaggle + Jigsaw + Multilingual + TPU. Идеальное сочетание.
1. XGLUE - GLUE для мультиязычных моделей
1. Aligned Cross Entropy for Non-Autoregressive Machine Translation - новая SOTA от FAIR по неавторегрессионному NMT
1. Why There is No ImageNet Moment in Speech to Text Yet
1. Optuna - оптимизатор гиперпараметров для PyTorch + Lightning. Интерфейс ужасный до жути (распределение на гиперпараметры задаётся внутри класса модели), но фичи интересные. Я больше советую wandb sweeps, но интересно если кто-нибудь сравнит их.

YouTube

Stanford CS230: Deep Learning | Autumn 2018 | Lecture 8 - Career Advice / Reading Research Papers

Andrew Ng, Adjunct Professor & Kian Katanforoosh, Lecturer - Stanford University
http://onlinehub.stanford.edu/

Andrew Ng
Adjunct Professor, Computer Science

Kian Katanforoosh
Lecturer, Computer Science

To follow along with the course schedule and syllabus…

2.54K viewsnlpcontroller_bot, 16:38

👍 14

DL in NLP

Modern (не совсем) Deep Learning Techiniques Applied to NLP - похоже на то, что кто-то не из NLP попытался собрать все техники предбертовой эры в одном месте. И в общем получилось неплохо, хотя местами и устаревшие/неработающие пока/воообще вещи (рекурсивные сети/память/RL).

1.67K viewsnlpcontroller_bot, 14:06

👍 8

DL in NLP

🤗 Awesome NLP Paper Discussions github.com/huggingface/awesome-papers "Each week, the Hugging Face team has a science day where one team member presents an awesome NLP paper. We've decided to share this discussion with the community. See planned future discussions…

Кстати если вы забыли про саммари статьи от (not Hugging fot the Moment) Face, как это сделал я - то зря.

Вот хорошее саммари по Scaling Laws for Language Models, пожалуй одной из самых крутых статей за последние несколько месяцев.

Google Docs

HF reading group 03/24: Scaling Laws for Neural Language Models

HF reading group 03/24 Scaling Laws for Neural Language Models Background Language model pre-training can feel like a wholly different beast compared to others parts of the ML toolkit, especially supervised learning. Having…

1.86K viewsVlad Lialin, edited 14:10

DL in NLP

The Transformer Family
Lilian Weng

Хороший обзор различных вариаций трансформера, которых уже стало на удивление много. Кажется даже больше, чем вариантов LSTM.
В посте автор разбирает следующие:
1. Transformer-XL
1. Adaptive Attention Span
1. Image Transformer (Localized Attention Span)
1. Sparse Transformer
1. Reformer
1. Universal Transformer
1. GTrXL

Вся область альтернативных трансформеров пока что кажется диким западом, но вдруг найдёте что-то полезное для своей задачи.

Lil'Log

The Transformer Family

1.96K viewsnlpcontroller_bot, 15:21

👍 9

DL in NLP

Я только что проделал грандиозную работу - закрыл все вкладки в браузере (последние из них были открыты где-то с сентября). Результатом стал список статей, которые я хотел прочитать, но этого не сделал. Отобрал из него те, которые всё ещё выглядят интересно, вдруг кому-то будет полезно.

Список
Когда-нибудь я их все прочитаю (нет).

Evernote

List of papers you want to read. Papers TODO

A Mean Field Theory of Batch Normalization On the Information Bottleneck Theory of Deep Learning Backward Feature Correction: How Deep Learning Performs Deep Learning Learning Discrete Distributions b...

1.77K viewsnlpcontroller_bot, edited 15:48

👍 12

DL in NLP

1.75K viewsnlpcontroller_bot, 15:48

DL in NLP

Отличный тред в твиттере на тему языковых моделей и воспроизводимости

TL;DR воспроизводить сложно, можно сильно понизить перплексию модели (c 90 до 66 wikitext-2) случайно дропая целые эмбеддинги, да и в обычный дропаут в эмбеддинги хорошо помогает. Цена за перплексию - адски возрастающий compute (с 15 минут до 7 часов).

Вообще я тоже заметил, что у языковых моделей после какого-то момента сходимость резко замедляется. Может быть power normalization может помочь или какой-нибудь аггресивный lr scheduler? Если кто-то решал похожие проблемы - заходите в чат.

Twitter

Tim Dettmers

How can you successfully train transformers on small datasets like PTB and WikiText-2? Are LSTMs better on small datasets? I ran 339 experiments worth 568 GPU hours and came up with some answers. I do not have time to write a blog post, so here a twitter…

2.57K viewsnlpcontroller_bot, 16:32

👍 8

DL in NLP

Подборка интересных штук

попроще:
1. Автоград и тренировка нейросетки в 50 строк numpy-кода от Карпатогго: MicoGrad
1. Наброс на то, что DS - это не так классно, как вам описывают на курсах (оказывается там не только fitpredict надо делать)

не попроще:
1. Тред от Рудера про то, что сопоставлять векторные представления далёких языков сложно не столько потому что языки очень различные, а потому что эмбеддинги для неевропейских языков натренированы криво (статья)
1. Свежая статья по Multiagent RL + NLP
1. Translation Artifacts in Cross-lingual Transfer Learning

Twitter

Andrej Karpathy

ok I'm pretty sure I wrote the tiniest autograd engine with a neural net library on top of it, weighing about ~50 LOC for the engine, ~50 LOC for the neural net library, and it's super cute and totally works. MicroGrad: https://t.co/yR8pK3ai7w 😂

1.69K viewsnlpcontroller_bot, 15:14

👍 5

DL in NLP

Прочитал подробнее Translation Artifacts in Cross-lingual Transfer Learning и это выглядит как очень интересный подвид даталика. Даже скорее даталик наоборот.

В чём проблема: мультиязычные датасеты в часто создаются с помощью машинного перевода (XNLI, XQUAD, ...). Train остаётся в английском а в test куча примеров, переведённых с английского на какой-нибудь другой язык. Сейчас будет звучать очевидно, но раньше никто до этого не догадывался - такой перевод делает test отличным от train не только по языку, но и по некоторым артефактам системы машинного перевода. С помощью пары экспериментов на XNLI и нового тестового сета (созданного людьми), авторы статьи приходят к выводу, что: the loss of performance when generalizing from original data to machine translated data is substantially larger than the loss of performance when generalizing from one language to another.

Кроме этого авторы предлагают пересмотреть наши взгляды на аугментацию машинным переводом, так как получается что это не только парафразинг, но и по сути трансформация более значимая, чем использование другого языка.

Подробнее в статье.

1.73K viewsnlpcontroller_bot, edited 15:38

👍 12

DL in NLP

На фоне вчерашней статьи, XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization выглядит уже не так впечатляюще, но всё-таки.

По сути это GLUE с тестом для 40 языков из 12 различных семейств. Некоторые из тестсетов переведены автоматически, некоторые - людьми. XLM-R перфомит лучше всех моделей, ему в спину дышит BERT-Large с переведённым (обратно) на английский тестсетом (что как-то не очень честно, тк современные NMT системы используют backtranslation для тренировки). Но в любом случае во всех задачах модели ещё очень далеки от людей. В общем приятно, что теперь есть единая система тестирования новых мультиязычных моделей, которая имеет большие шансы стать стандартом.

1.84K viewsnlpcontroller_bot, 14:28

👍 11

DL in NLP

1.93K viewsnlpcontroller_bot, 14:28

DL in NLP

Forwarded from Valentin Malykh

коллеги, всем привет, мы совместно с коллегами из Mail.Ru запускаем соревнование по машинному переводу с китайского на русский; все, кому интересно поучаствовать в улучшении качества перевода между двумя крупнейшими языками мира, присоединяйтесь! https://mlbootcamp.ru/round/26/tasks/
в поддержку соревнования я написал пост об истории машинного перевода: https://habr.com/ru/company/huawei/blog/492702/

2.08K viewsVlad Lialin, 14:47

DL in NLP

Недавно видел курс, в котором NLP начинают с трансфомеров и хотел его сюда запостить. Но потерял 😶

Вместо него подборка твитов (а где ещё новости находить)
1. Тред по unsupervised MT от человека, фамилию которого я почти понял как произносить
1. В AI Dungeon теперь есть мультиплеер и более тонкая настройка генерации вашей истории
1. Статья о том, что BERT на удивление хорошо генерализует на out-of-distribution примеры
1. Я бы назвал это тизер-трейлером статьи - картинка безумной нейросети от команды Ричарда Сохера, которая делает conversational machine reading

Twitter

Mikel Artetxe

We have seen impressive progress on unsupervised MT under ideal conditions (large high-quality corpora, similar domains, relatively close languages). But what happens if we move to more challenging settings? This is a great paper addressing this important…

1.69K viewsnlpcontroller_bot, 15:55

👍 7

About

Blog

Apps

Platform