DL in NLP

DeepMind выпускает подкаст. Пока что доступен только трейлер, но stay tuned. podcasts.apple.com/ru/podcast/deepmind-the-podcast/id1476316441?l=en

Вышли первые эпизоды 🎉

1.86K views19:41

DL in NLP

Всем привет!
Кто-то из вас уже знает, что не так давно я закончил свою работу в iPavlov, чтобы начать PhD в massachusetts.edu. В последние несколько дней было мало постов по причине переезда, что я планирую исправить в ближайшее время.
Сейчас для канала готовится новый логотип, плюс новости будут поститься в чуть-чуть другое время из-за разницы в часовых поясах.

Несколько людей простили меня рассказать, как происходило поступление в штаты, получение визы, поиск проживания и первые дни. Наверное, будет не очень хорошо запихивать всё это в один пост, так что разобью на 3-4 части и опубликую их в течение этих выходных.
Всё-таки я не позиционирую этот канал как мой личный, поэтому будет правильным спросить у вас, место ли такому материалу в канале.

1.48K views08:26

👍 216 👎

DL in NLP

И первый пост.

telegra.ph/CHast-1-Postuplenie-08-24

Telegraph

Часть 1. Поступление.

Поступить в штаты хотел давно и слышал, что на graduate-программах лучше всего в начале найти себе научрука, а дальше он поможет (спойлер, примерно так и получилось). Однако в сентябре (а осенью уже пора подавать документы в университеты США) я решил, что…

1.65K views14:04

👍 35

DL in NLP

У FAIR неплохой блог, в нём можно почитать объяснения некоторых их статей простым языком.
Например, тут описываются две их статьи:
ai.facebook.com/blog/making-transformer-networks-simpler-and-more-efficient

Adaptive Attention Span in Transformers (arxiv.org/abs/1905.07799)
и
Augmenting Self-attention with Persistent Memory (arxiv.org/abs/1907.01470)

за наводку на пост спасибо @ibelyalov

Facebook

Making Transformer networks simpler and more efficient

Facebook AI researchers are sharing an all-attention layer to simplify the Transformer model and an adaptive attention span method to make it more efficient. Even with a much simpler architecture, these methods match or improve state-of-the-art results.

1.69K viewsedited 16:40

DL in NLP

И, внезапно, статья в их блоге как раз про тему моей магистерской.
Векторные представления слов с опечатками. Правда facebook делают это supervised, что хорошо, но датасеты с исправленными опечатками пока что найти довольно сложно.

ai.facebook.com/blog/-a-new-model-for-word-embeddings-that-are-resilient-to-misspellings-

Facebook

A new model for word embeddings that are resilient to misspellings

Misspelling Oblivious Embeddings (MOE) is a new model for word embeddings that are resilient to misspellings, improving the ability to apply word embeddings to real-world situations, where misspellings are common.

1.78K views16:45

DL in NLP

На выходных совсем не было времени на обещанные посты, но вот хотя бы второй.

telegra.ph/CHast-2-Poluchenie-biznes-vizy-i-pervyj-vizit-v-SSHA-08-27

Telegraph

Часть 2. Получение бизнес-визы и первый визит в США.

Все посты: Часть 1. Поcтупление Часть 2. Получение бизнес-визы и первый визит в США Часть 3. Студенческая виза и переезд Часть 4. Что нужно успеть в первые недели PhD В прошлой части я рассказал про то, как прошёл мой процесс поступления на PhD в США. В этой…

1.63K views08:26

👍 32

DL in NLP

The HSIC Bottleneck: Deep Learning without Back-Propagation
Kurt Ma et al. Victoria University of Wellington
arxiv.org/abs/1908.01580v1

TL;DR by @vaklyuenkov
Предлагается метод обучения полносвязных и свёрточных сетей
- без обратного распространения ошибки
- без затухающих и взрывающихся градиентов
- позволяющий независимое (в тч параллельное) обучение слоёв
- требующий меньшее число операций
- результаты на бенчмарках MNIST/FashionMNIST/CIFAR10 сравнимы с обучением с обратым распространием
- биологичнее, чем backprop

Вся магия в критерии независимости Гильберта-Шмидта (HSIC) - меры, которая позволяет измерять степень независимости (что сильнее отсутсвия корреляции) между двумя многомерными случайными величинами, такими как парамметры любого скрытого слоя и ожидаемые лейблы на выходе. С помощью критерия для слоёв независимо оптимизируется баланс между независимостью от лишней информации в инпуте, ведущей к переобучению, и зависимости с желаемым результатом на выходе. Скорость сходимости получается даже больше чем у методов с backprop. Для получения state-of-the-art результатов всё-таки обучается один слой посредсвом SGD и авторы с гордостью отмечают это обходится без backprop.

It is more biologically plausible
без гмо и усилителей вкуса
всё натуральное

1.89K views15:54

👍 22

DL in NLP

1.49K views15:54

DL in NLP

OpenGPT-2: We Replicated GPT-2 Because You Can Too
ссылка

We demonstrate that many of the results of the paper can be replicated by two masters students, with no prior experience in language modeling and if you have $50K прим ред.

В статье много подробностей о подготовке датасета, на которые интересно обратить внимание (правда они теперь не такие релевантные, тк датасет от OpenAI уже доступен).

Medium

OpenGPT-2: We Replicated GPT-2 Because You Can Too

By Aaron Gokaslan* and Vanya Cohen*

1.47K views16:57

👍 5

DL in NLP

Третий пост серии про моё поступление

Telegraph

Часть 3. Студенческая виза и переезд

Все посты: Часть 1. Поcтупление Часть 2. Получение бизнес-визы и первый визит в США Часть 3. Студенческая виза и переезд Часть 4. Что нужно успеть в первые недели PhD Disclaimer: я не уверен, что смогу перечислить тут все подробности получения студенческой…

1.42K views08:27

👍 24

DL in NLP

A Complete List of Important Natural Language Processing Frameworks you should Know (NLP Infographic)

Инфографику по NLP завезли

www.analyticsvidhya.com/blog/2019/08/complete-list-important-frameworks-nlp

Analytics Vidhya

A Complete List of Important Natural Language Processing Frameworks you should Know (NLP Infographic)

This is the era of NLP. From Google AI to Facebook Research, check out the important NLP frameworks since the launch of the Transformers framework.

1.64K views16:22

👍 11

DL in NLP

Оптимизатор, использующий заметно меньше памяти. Звучит интересно, потому что ADAM потребляет памяти в два раза больше, чем сама нейросеть.
Stack more layers теперь будет ещё проще.

twitter.com/JeffDean/status/1167285750766850048

Twitter

Jeff Dean

Reduced memory optimizers! From https://t.co/HHml5ESVjR: For parameters of deep networks ..., we form a cover consisting of slices of codimension one for each tensor. Thus, for an m x n parameter matrix...The memory requirements ... drop from m*n to merely…

3.01K views19:09

👍 7

DL in NLP

Ссылка: https://cutt.ly/qwl2hNM

GitHub

google-research/sm3 at master · google-research/google-research

Google Research. Contribute to google-research/google-research development by creating an account on GitHub.

2.13K views19:09

DL in NLP

DeepBayes запостил свои материалы онлайн 🎉
https://twitter.com/deepbayes/status/1168784281965146112?s=19

за ссылку спасибо @Cookie_thief

Twitter

Deep|Bayes Summer School

We have finally posted all school materials online Slides: https://t.co/Moas2Bnr3q Practical assignments: https://t.co/lCU2EmKzDM Videos: https://t.co/VauqTMR3nm

1.87K views18:37

DL in NLP

Мысли гугла на тему компилятора для нейросеток

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/1c082b766d8e14b54e36e37c9fc3ebbe8b4a72dd.pdf

1.41K views18:32

👍 5

DL in NLP

zoning tapping fiennes everyone!

Universal Adversarial Triggers for Attacking and Analyzing NLP

Довольно простая adversarial-атака показывает, насколько современные системы неустойчивы. Ищется такая последовательность токенов, добавленная в начало (конец) текста, чтобы все примеры в датасете классифицировались конкретным классом. Или чтобы на вопрос определённого вида (Who …?) был всегда один и тот же ответ (Jeff Dean).
Советую почитать блогпост и окунуться в статью после.

how ] ] there Jeff Dean ; who who did

http://www.ericswallace.com/triggers

Ericswallace

Universal Triggers

Universal Adversarial Triggers for Attacking and Analyzing NLP

1.46K views19:33

👍 6

DL in NLP

Implicit Deep Latent Variable Models for Text Generation.
Le Fang at el. University at Buffalo
arxiv.org/abs/1908.11527.pdf

iVAE. Как VAE, только лучше.

Deep latent variable models (LVM), такие как вариационные автоэнкодеры, начинают играть важную роль в генерации текста. Благодаря гладкому непрерывному латентному пространству можно интерполяцией генерировать текст (например, в контексте диалога) и выполнять векторные перобразования для перноса стиля.

Репрезентативная способность текущих LVM ограничена:
(1) предположением о нормальности распределения (posterior) латентных переменных при заданных входных данных
(2) коллапсом posterior, когда декодер становится к нему нечувствителен. Причина этого, вероятно, в неоправданности предположения (1) для конкретных данных.

Для решения данных проблем предлагается:
- iVAE (VAE from apple (нет)) инсайт статьи: вместо сильного (слишком) предположения о нормальном распределении латентных переменных используется вспомогательная нейронка (авторы называют её не иначе как многослойный перцептрон MLP), которая производит распределение латентных переменных, получая на вход ембединг входных данных из енкодера и гаусовский шум.
- iVAEMI максимизируем взаимную информацию между латентным представлением и входом, получая соответcтвие каждому предложению локальной области в латентном пространстве.

Особое великолепие заключено в репозитории, позволяющем воспроизвести все результаты статьи последовательностью скриптов на питоне, где код читается легче матана в статье.

🏆SOTA-языковое моделирование. На датасете Penn Tree Bank (PTB)
🏆SOTA-языковое моделирование. На датасете Yahoo.
🏆SOTA-языковое моделирование. На датасете Yelp corpora.
🎭 Перенос стиля - превращение негативных комментариев Yelp в позитивные (и наоборот). Добавляется сентимент-классификатор (многослойный перцептрон), енкодер и классификатор учатся состязательно, используются два различных декодера: для позитива и негатива. Примеры в статье вдохновляют достаточно, чтобы вызвать недоверие и желание воспроизвести.
💬 Генерация ответа в диалоге. Используя несущие смысловую нагрузку истории диалога латентные переменные, генерируется ответ на датасетах Switchboard и Dailydialog.

arXiv.org

Implicit Deep Latent Variable Models for Text Generation

Deep latent variable models (LVM) such as variational auto-encoder (VAE) have
recently played an important role in text generation. One key factor is the
exploitation of smooth latent structures...

1.59K views19:02

👍 15

DL in NLP

1.37K views19:06

DL in NLP

Episodic Memory in Lifelong Language Learning
d’Autume et al. DeepMind
arxiv.org/abs/1906.01076

DeepMind исследуют способы борьбы с catastrophic forgetting на задачах NLP. Постановка эксперимента такая: мы берём несколько датасетов, решающих один тип задачи (например, Yelp, AGNews, DNPedia, Amazon, Yahoo) и последовательно учим каждую задачу одной сеткой в течение одной эпохи. После чего мы смотрим качество на каждой задаче. Если применять стандартный метод обучения, то сетка будет хорошо решать только самую последнюю задачу, которую она видела. Мы хотим это побороть.

Способ такой: использовать небольшой sparse experience replay + local adaptation

Sparse experience replay:
Мы записываем некоторые примеры из обучающей выборки в массив и во время обучения периодически обращаемся к ним, чтобы не забыть.

Local adaptation:
На инференсе для каждого примера, для которого нужно сделать предсказание мы выбираем несколько похожих примеров из experience replay и делаем несколько шагов оптимизации специального лосса по этим примерам.

Результаты: всё бейзлайны побиты.

1.39K views19:01

👍 10

DL in NLP

1.33K views19:01

👍 2

About

Blog

Apps

Platform