DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
加入频道
Forwarded from I
Встречаемся завтра в 12 в ШАДе. Аудитория "Оксфорд".

Вместе с коллегами разберем статьи:
- @AllokyOfficial - https://arxiv.org/abs/1801.04871
- @PaGul - https://arxiv.org/abs/1905.08743
- @artli - https://arxiv.org/abs/1810.09587v1
- @twlvth - https://arxiv.org/abs/1907.00883

А @daLime постарается записать.

Если есть вопросы, то пишите -- помогу.
Channel photo updated
NVIDIA раздаёт стипендии.

blogs.nvidia.com/blog/2019/08/16/graduate-fellowship-awards

TL;DR

Up to $50,000 per student.
We’re looking for students who have completed their first year of Ph.D.-level studies at the time of application. Applicants must also be investigating innovative ways to use GPUs. The deadline for submitting applications is Sept. 13, 2019. An internship at NVIDIA preceding the fellowship year is now mandatory — eligible candidates should be available for the internship in summer 2020.
Всем привет!
Кто-то из вас уже знает, что не так давно я закончил свою работу в iPavlov, чтобы начать PhD в massachusetts.edu. В последние несколько дней было мало постов по причине переезда, что я планирую исправить в ближайшее время.
Сейчас для канала готовится новый логотип, плюс новости будут поститься в чуть-чуть другое время из-за разницы в часовых поясах.

Несколько людей простили меня рассказать, как происходило поступление в штаты, получение визы, поиск проживания и первые дни. Наверное, будет не очень хорошо запихивать всё это в один пост, так что разобью на 3-4 части и опубликую их в течение этих выходных.
Всё-таки я не позиционирую этот канал как мой личный, поэтому будет правильным спросить у вас, место ли такому материалу в канале.
У FAIR неплохой блог, в нём можно почитать объяснения некоторых их статей простым языком.
Например, тут описываются две их статьи:
ai.facebook.com/blog/making-transformer-networks-simpler-and-more-efficient

Adaptive Attention Span in Transformers (arxiv.org/abs/1905.07799)
и
Augmenting Self-attention with Persistent Memory (arxiv.org/abs/1907.01470)

за наводку на пост спасибо @ibelyalov
И, внезапно, статья в их блоге как раз про тему моей магистерской.
Векторные представления слов с опечатками. Правда facebook делают это supervised, что хорошо, но датасеты с исправленными опечатками пока что найти довольно сложно.

ai.facebook.com/blog/-a-new-model-for-word-embeddings-that-are-resilient-to-misspellings-
The HSIC Bottleneck: Deep Learning without Back-Propagation
Kurt Ma et al. Victoria University of Wellington
arxiv.org/abs/1908.01580v1

TL;DR by @vaklyuenkov
Предлагается метод обучения полносвязных и свёрточных сетей
- без обратного распространения ошибки
- без затухающих и взрывающихся градиентов
- позволяющий независимое (в тч параллельное) обучение слоёв
- требующий меньшее число операций
- результаты на бенчмарках MNIST/FashionMNIST/CIFAR10 сравнимы с обучением с обратым распространием
- биологичнее, чем backprop

Вся магия в критерии независимости Гильберта-Шмидта (HSIC) - меры, которая позволяет измерять степень независимости (что сильнее отсутсвия корреляции) между двумя многомерными случайными величинами, такими как парамметры любого скрытого слоя и ожидаемые лейблы на выходе. С помощью критерия для слоёв независимо оптимизируется баланс между независимостью от лишней информации в инпуте, ведущей к переобучению, и зависимости с желаемым результатом на выходе. Скорость сходимости получается даже больше чем у методов с backprop. Для получения state-of-the-art результатов всё-таки обучается один слой посредсвом SGD и авторы с гордостью отмечают это обходится без backprop.

It is more biologically plausible
без гмо и усилителей вкуса
всё натуральное
OpenGPT-2: We Replicated GPT-2 Because You Can Too
ссылка

We demonstrate that many of the results of the paper can be replicated by two masters students, with no prior experience in language modeling and if you have $50K прим ред.

В статье много подробностей о подготовке датасета, на которые интересно обратить внимание (правда они теперь не такие релевантные, тк датасет от OpenAI уже доступен).
Оптимизатор, использующий заметно меньше памяти. Звучит интересно, потому что ADAM потребляет памяти в два раза больше, чем сама нейросеть.
Stack more layers теперь будет ещё проще.

twitter.com/JeffDean/status/1167285750766850048
Мысли гугла на тему компилятора для нейросеток

https://storage.googleapis.com/pub-tools-public-publication-data/pdf/1c082b766d8e14b54e36e37c9fc3ebbe8b4a72dd.pdf