OpenGPT-2: We Replicated GPT-2 Because You Can Too
ссылка
We demonstrate that many of the results of the paper can be replicated by two masters students, with no prior experience in language modeling and if you have $50K прим ред.
В статье много подробностей о подготовке датасета, на которые интересно обратить внимание (правда они теперь не такие релевантные, тк датасет от OpenAI уже доступен).
ссылка
We demonstrate that many of the results of the paper can be replicated by two masters students, with no prior experience in language modeling and if you have $50K прим ред.
В статье много подробностей о подготовке датасета, на которые интересно обратить внимание (правда они теперь не такие релевантные, тк датасет от OpenAI уже доступен).
Medium
OpenGPT-2: We Replicated GPT-2 Because You Can Too
By Aaron Gokaslan* and Vanya Cohen*
Третий пост серии про моё поступление
Telegraph
Часть 3. Студенческая виза и переезд
Все посты: Часть 1. Поcтупление Часть 2. Получение бизнес-визы и первый визит в США Часть 3. Студенческая виза и переезд Часть 4. Что нужно успеть в первые недели PhD Disclaimer: я не уверен, что смогу перечислить тут все подробности получения студенческой…
A Complete List of Important Natural Language Processing Frameworks you should Know (NLP Infographic)
Инфографику по NLP завезли
www.analyticsvidhya.com/blog/2019/08/complete-list-important-frameworks-nlp
Инфографику по NLP завезли
www.analyticsvidhya.com/blog/2019/08/complete-list-important-frameworks-nlp
Analytics Vidhya
A Complete List of Important Natural Language Processing Frameworks you should Know (NLP Infographic)
This is the era of NLP. From Google AI to Facebook Research, check out the important NLP frameworks since the launch of the Transformers framework.
Оптимизатор, использующий заметно меньше памяти. Звучит интересно, потому что ADAM потребляет памяти в два раза больше, чем сама нейросеть.
Stack more layers теперь будет ещё проще.
twitter.com/JeffDean/status/1167285750766850048
Stack more layers теперь будет ещё проще.
twitter.com/JeffDean/status/1167285750766850048
Twitter
Jeff Dean
Reduced memory optimizers! From https://t.co/HHml5ESVjR: For parameters of deep networks ..., we form a cover consisting of slices of codimension one for each tensor. Thus, for an m x n parameter matrix...The memory requirements ... drop from m*n to merely…
DeepBayes запостил свои материалы онлайн 🎉
https://twitter.com/deepbayes/status/1168784281965146112?s=19
за ссылку спасибо @Cookie_thief
https://twitter.com/deepbayes/status/1168784281965146112?s=19
за ссылку спасибо @Cookie_thief
Twitter
Deep|Bayes Summer School
We have finally posted all school materials online Slides: https://t.co/Moas2Bnr3q Practical assignments: https://t.co/lCU2EmKzDM Videos: https://t.co/VauqTMR3nm
Мысли гугла на тему компилятора для нейросеток
https://storage.googleapis.com/pub-tools-public-publication-data/pdf/1c082b766d8e14b54e36e37c9fc3ebbe8b4a72dd.pdf
https://storage.googleapis.com/pub-tools-public-publication-data/pdf/1c082b766d8e14b54e36e37c9fc3ebbe8b4a72dd.pdf
zoning tapping fiennes everyone!
Universal Adversarial Triggers for Attacking and Analyzing NLP
Довольно простая adversarial-атака показывает, насколько современные системы неустойчивы. Ищется такая последовательность токенов, добавленная в начало (конец) текста, чтобы все примеры в датасете классифицировались конкретным классом. Или чтобы на вопрос определённого вида (Who …?) был всегда один и тот же ответ (Jeff Dean).
Советую почитать блогпост и окунуться в статью после.
how ] ] there Jeff Dean ; who who did
http://www.ericswallace.com/triggers
Universal Adversarial Triggers for Attacking and Analyzing NLP
Довольно простая adversarial-атака показывает, насколько современные системы неустойчивы. Ищется такая последовательность токенов, добавленная в начало (конец) текста, чтобы все примеры в датасете классифицировались конкретным классом. Или чтобы на вопрос определённого вида (Who …?) был всегда один и тот же ответ (Jeff Dean).
Советую почитать блогпост и окунуться в статью после.
how ] ] there Jeff Dean ; who who did
http://www.ericswallace.com/triggers
Ericswallace
Universal Triggers
Universal Adversarial Triggers for Attacking and Analyzing NLP
Implicit Deep Latent Variable Models for Text Generation.
Le Fang at el. University at Buffalo
arxiv.org/abs/1908.11527.pdf
iVAE. Как VAE, только лучше.
Deep latent variable models (LVM), такие как вариационные автоэнкодеры, начинают играть важную роль в генерации текста. Благодаря гладкому непрерывному латентному пространству можно интерполяцией генерировать текст (например, в контексте диалога) и выполнять векторные перобразования для перноса стиля.
Репрезентативная способность текущих LVM ограничена:
(1) предположением о нормальности распределения (posterior) латентных переменных при заданных входных данных
(2) коллапсом posterior, когда декодер становится к нему нечувствителен. Причина этого, вероятно, в неоправданности предположения (1) для конкретных данных.
Для решения данных проблем предлагается:
- iVAE (VAE from apple (нет)) инсайт статьи: вместо сильного (слишком) предположения о нормальном распределении латентных переменных используется вспомогательная нейронка (авторы называют её не иначе как многослойный перцептрон MLP), которая производит распределение латентных переменных, получая на вход ембединг входных данных из енкодера и гаусовский шум.
- iVAEMI максимизируем взаимную информацию между латентным представлением и входом, получая соответcтвие каждому предложению локальной области в латентном пространстве.
Особое великолепие заключено в репозитории, позволяющем воспроизвести все результаты статьи последовательностью скриптов на питоне, где код читается легче матана в статье.
🏆SOTA-языковое моделирование. На датасете Penn Tree Bank (PTB)
🏆SOTA-языковое моделирование. На датасете Yahoo.
🏆SOTA-языковое моделирование. На датасете Yelp corpora.
🎭 Перенос стиля - превращение негативных комментариев Yelp в позитивные (и наоборот). Добавляется сентимент-классификатор (многослойный перцептрон), енкодер и классификатор учатся состязательно, используются два различных декодера: для позитива и негатива. Примеры в статье вдохновляют достаточно, чтобы вызвать недоверие и желание воспроизвести.
💬 Генерация ответа в диалоге. Используя несущие смысловую нагрузку истории диалога латентные переменные, генерируется ответ на датасетах Switchboard и Dailydialog.
Le Fang at el. University at Buffalo
arxiv.org/abs/1908.11527.pdf
iVAE. Как VAE, только лучше.
Deep latent variable models (LVM), такие как вариационные автоэнкодеры, начинают играть важную роль в генерации текста. Благодаря гладкому непрерывному латентному пространству можно интерполяцией генерировать текст (например, в контексте диалога) и выполнять векторные перобразования для перноса стиля.
Репрезентативная способность текущих LVM ограничена:
(1) предположением о нормальности распределения (posterior) латентных переменных при заданных входных данных
(2) коллапсом posterior, когда декодер становится к нему нечувствителен. Причина этого, вероятно, в неоправданности предположения (1) для конкретных данных.
Для решения данных проблем предлагается:
- iVAE (VAE from apple (нет)) инсайт статьи: вместо сильного (слишком) предположения о нормальном распределении латентных переменных используется вспомогательная нейронка (авторы называют её не иначе как многослойный перцептрон MLP), которая производит распределение латентных переменных, получая на вход ембединг входных данных из енкодера и гаусовский шум.
- iVAEMI максимизируем взаимную информацию между латентным представлением и входом, получая соответcтвие каждому предложению локальной области в латентном пространстве.
Особое великолепие заключено в репозитории, позволяющем воспроизвести все результаты статьи последовательностью скриптов на питоне, где код читается легче матана в статье.
🏆SOTA-языковое моделирование. На датасете Penn Tree Bank (PTB)
🏆SOTA-языковое моделирование. На датасете Yahoo.
🏆SOTA-языковое моделирование. На датасете Yelp corpora.
🎭 Перенос стиля - превращение негативных комментариев Yelp в позитивные (и наоборот). Добавляется сентимент-классификатор (многослойный перцептрон), енкодер и классификатор учатся состязательно, используются два различных декодера: для позитива и негатива. Примеры в статье вдохновляют достаточно, чтобы вызвать недоверие и желание воспроизвести.
💬 Генерация ответа в диалоге. Используя несущие смысловую нагрузку истории диалога латентные переменные, генерируется ответ на датасетах Switchboard и Dailydialog.
arXiv.org
Implicit Deep Latent Variable Models for Text Generation
Deep latent variable models (LVM) such as variational auto-encoder (VAE) have
recently played an important role in text generation. One key factor is the
exploitation of smooth latent structures...
recently played an important role in text generation. One key factor is the
exploitation of smooth latent structures...
Episodic Memory in Lifelong Language Learning
d’Autume et al. DeepMind
arxiv.org/abs/1906.01076
DeepMind исследуют способы борьбы с catastrophic forgetting на задачах NLP. Постановка эксперимента такая: мы берём несколько датасетов, решающих один тип задачи (например, Yelp, AGNews, DNPedia, Amazon, Yahoo) и последовательно учим каждую задачу одной сеткой в течение одной эпохи. После чего мы смотрим качество на каждой задаче. Если применять стандартный метод обучения, то сетка будет хорошо решать только самую последнюю задачу, которую она видела. Мы хотим это побороть.
Способ такой: использовать небольшой sparse experience replay + local adaptation
Sparse experience replay:
Мы записываем некоторые примеры из обучающей выборки в массив и во время обучения периодически обращаемся к ним, чтобы не забыть.
Local adaptation:
На инференсе для каждого примера, для которого нужно сделать предсказание мы выбираем несколько похожих примеров из experience replay и делаем несколько шагов оптимизации специального лосса по этим примерам.
Результаты: всё бейзлайны побиты.
d’Autume et al. DeepMind
arxiv.org/abs/1906.01076
DeepMind исследуют способы борьбы с catastrophic forgetting на задачах NLP. Постановка эксперимента такая: мы берём несколько датасетов, решающих один тип задачи (например, Yelp, AGNews, DNPedia, Amazon, Yahoo) и последовательно учим каждую задачу одной сеткой в течение одной эпохи. После чего мы смотрим качество на каждой задаче. Если применять стандартный метод обучения, то сетка будет хорошо решать только самую последнюю задачу, которую она видела. Мы хотим это побороть.
Способ такой: использовать небольшой sparse experience replay + local adaptation
Sparse experience replay:
Мы записываем некоторые примеры из обучающей выборки в массив и во время обучения периодически обращаемся к ним, чтобы не забыть.
Local adaptation:
На инференсе для каждого примера, для которого нужно сделать предсказание мы выбираем несколько похожих примеров из experience replay и делаем несколько шагов оптимизации специального лосса по этим примерам.
Результаты: всё бейзлайны побиты.
Четвёртый и последний пост серии про моё поступление
Telegraph
Часть 4. Что нужно успеть в первые недели PhD
Предыдущие посты: Часть 1. Поcтупление Часть 2. Получение бизнес-визы и первый визит в США Часть 3. Студенческая виза и переезд Совсем не было времени написать этот пост последние несколько дней. Завтра (уже сегодня) первый учебный день
On Extractive and Abstractive Neural Document Summarization with Transformer Language Models
Subramanian et al. [MILA]
arxiv.org/abs/1909.03186
We present a method to produce abstractive summaries of long documents that exceed several thousand words via neural abstractive summarization. We perform a simple extractive step before generating a summary, which is then used to condition the transformer language model on relevant information before being tasked with generating a summary. We show that this extractive step significantly improves summarization results. We also show that this approach produces more abstractive summaries compared to prior work that employs a copy mechanism while still achieving higher rouge scores. Note: The abstract above was not written by the authors, it was generated by one of the models presented in this paper.
У этой статьи настолько потрясающий абстракт, что к нему просто нечего добавить. Всем читать.
Subramanian et al. [MILA]
arxiv.org/abs/1909.03186
We present a method to produce abstractive summaries of long documents that exceed several thousand words via neural abstractive summarization. We perform a simple extractive step before generating a summary, which is then used to condition the transformer language model on relevant information before being tasked with generating a summary. We show that this extractive step significantly improves summarization results. We also show that this approach produces more abstractive summaries compared to prior work that employs a copy mechanism while still achieving higher rouge scores. Note: The abstract above was not written by the authors, it was generated by one of the models presented in this paper.
У этой статьи настолько потрясающий абстракт, что к нему просто нечего добавить. Всем читать.
GPT-2 написал книгу (даже две).
И их можно купить на Amazon.
Писатели детективов напряглись.
twitter.com/gdb/status/1171538432100712448
И их можно купить на Amazon.
Писатели детективов напряглись.
twitter.com/gdb/status/1171538432100712448
Twitter
Greg Brockman
GPT-2 is now a published author: https://t.co/9WuuKJbipd https://t.co/sQxcV9tjKX
Завезли интуиции по тому, как работает батчнорм
https://twitter.com/jeremyphoward/status/1171873417731006464
https://twitter.com/jeremyphoward/status/1171873417731006464
Twitter
Jeremy Howard
This is the best distillation of recent (and old!) research on batchnorm I've seen. There is so much to learn about training mechanics by studying this thread and the links it contains. https://t.co/a1PeCy7M1s
Релиз-кандидат TensorFlow 1.5, который будет последним из TF 1.X (в этот раз уже точно).
Фишки:
1.
1. Модуль forward-совместимости с TF2.0
Полностью читать тут:
github.com/tensorflow/tensorflow/releases/tag/v1.15.0-rc0
Фишки:
1.
pip install tensorflow
ставит GPU-версию (при этом она будет работать и с CPU)1. Модуль forward-совместимости с TF2.0
Полностью читать тут:
github.com/tensorflow/tensorflow/releases/tag/v1.15.0-rc0
GitHub
Release TensorFlow 1.15.0-rc0 · tensorflow/tensorflow
Release 1.15.0-rc0
This is the last 1.x release for TensorFlow. We do not expect to update the 1.x branch with features, although we will issue patch releases to fix vulnerabilities for at least on...
This is the last 1.x release for TensorFlow. We do not expect to update the 1.x branch with features, although we will issue patch releases to fix vulnerabilities for at least on...
Моделька для контролируемой генерации текста от команды Einstein.ai
Пока не вникал в суть, но вроде бы просто языковая модель со специальными токенами во время тренировки.
twitter.com/RichardSocher/status/1171847882078470144
Пока не вникал в суть, но вроде бы просто языковая модель со специальными токенами во время тренировки.
twitter.com/RichardSocher/status/1171847882078470144
Twitter
Richard Socher
We release the largest publicly available language model: CTRL has 1.6B parameters and can be guided by control codes for style, content, and task-specific behavior. Incredible generations! Paper https://t.co/0Wr2XiOl2V Github https://t.co/PA8GxqtS9V Blog…
Facebook AI Research заопенсорсили новую среду для обучения с подкреплением.
Основная фишка - "планирование" агентом каких-то high-level стратегий с помощью естественного языка.
Ссылка: https://ai.facebook.com/blog/-teaching-ai-to-plan-using-language-in-a-new-open-source-strategy-game/
Основная фишка - "планирование" агентом каких-то high-level стратегий с помощью естественного языка.
Ссылка: https://ai.facebook.com/blog/-teaching-ai-to-plan-using-language-in-a-new-open-source-strategy-game/
Facebook
Teaching AI to plan using language in a new open-source strategy game
Facebook AI has open sourced MiniRTSv2, a real-time strategy game designed to test and evaluate a range of AI techniques related to reinforcement learning, hierarchical decision-making and natural language processing.