Sparse Networks from Scratch: Faster Training without Losing Performance
timdettmers.com/2019/07/11/sparse-networks-from-scratch
Стандартные подходы к сжатию сеток основываются на том, что мы обучаем сеть обычным метогдом, а потом эту (плотную) сеть уменьшаем и прорежаем. В этой статейке предложили метод оптимизации, который делает сетки разрежеными ещё во время обучения. Выглядит интересно, но тестировали как всегда только на MNIST и CIFAR.
timdettmers.com/2019/07/11/sparse-networks-from-scratch
Стандартные подходы к сжатию сеток основываются на том, что мы обучаем сеть обычным метогдом, а потом эту (плотную) сеть уменьшаем и прорежаем. В этой статейке предложили метод оптимизации, который делает сетки разрежеными ещё во время обучения. Выглядит интересно, но тестировали как всегда только на MNIST и CIFAR.
Tim Dettmers
Sparse Networks from Scratch: Faster Training without Losing Performance
This blog post explains the sparse momentum algorithm and how it enables the fast training of sparse networks to dense performance levels — sparse learning.
#rl
К сожалению, на этой неделе не получится провести rl-встречу в четверг, переносим её на неделю вперёд. Надеюсь, что это увеличит число решённых заданий.
Прошу обратить внимание, что в четвёртой задаче агент учится часов 6 на GPU (при условии что всё написано без ошибок, у вас хорошие гиперпараметры и звёзды на небе расположенны благосклонно), так что начинайте её как можно раньше.
К сожалению, на этой неделе не получится провести rl-встречу в четверг, переносим её на неделю вперёд. Надеюсь, что это увеличит число решённых заданий.
Прошу обратить внимание, что в четвёртой задаче агент учится часов 6 на GPU (при условии что всё написано без ошибок, у вас хорошие гиперпараметры и звёзды на небе расположенны благосклонно), так что начинайте её как можно раньше.
Это не я их ищу, это они меня находят. Ещё одна вариация трансформера.
R-Transformer: Recurrent Neural Network Enhanced Transformer
Wang et al. [Michigan State University]
arxiv.org/abs/1907.05572
Главная часть абстракта:
Despite their success, however, these models [transformers] lack necessary components to model local structures in sequences and heavily rely on position embeddings that have limited effects and require a considerable amount of design efforts.
Основная идея состоит в том, чтобы использовать для учёта локального контекста (например, 3 слова) модифицированную RNN, учитывающую только предыдущие M=3-1 слов, а для учёта глобального контекста (всей последовательности) использовать обычный self-attention. Работает на удивление неплохо, хотя задачи, конечно странно выбраны.
R-Transformer: Recurrent Neural Network Enhanced Transformer
Wang et al. [Michigan State University]
arxiv.org/abs/1907.05572
Главная часть абстракта:
Despite their success, however, these models [transformers] lack necessary components to model local structures in sequences and heavily rely on position embeddings that have limited effects and require a considerable amount of design efforts.
Основная идея состоит в том, чтобы использовать для учёта локального контекста (например, 3 слова) модифицированную RNN, учитывающую только предыдущие M=3-1 слов, а для учёта глобального контекста (всей последовательности) использовать обычный self-attention. Работает на удивление неплохо, хотя задачи, конечно странно выбраны.
arXiv.org
R-Transformer: Recurrent Neural Network Enhanced Transformer
Recurrent Neural Networks have long been the dominating choice for sequence modeling. However, it severely suffers from two issues: impotent in capturing very long-term dependencies and unable to...
Multilingual Universal Sentence Encoderfor Semantic Retrieval
Yang, Cer et al. [Google], 2019
arxiv.org/abs/1907.04307
Если кто-то пользовался TFHub, то один из самых популярных модулей там - это Universal Sentence Encoder (arxiv.org/abs/1803.11175). USE - это трансформер из эпохи позднего предбертья, предобучающаяся как на unsupervised (skip-thought), так и на supervised (SNLI) тасках.
Однако USE, выложенный на TFHub был недостаточно universal, потому что он был обучен только на английском. В новой версии он поддерживает 16 языков (включая русский 🎉). Про то, как он обучается: a multi-feature question-answer prediction task, a translation ranking task, and a natural language inference task. Я надеюсь, что вы поняли, потому что это всё, что я смог выудить из статьи.
Про данные расказано немного больше и есть интересные моменты:
1. QA-пары намайнены с Reddit, StackOverflow и YahooAnswers; часть QA-датасета переведена, чтобы добить все языки хотя бы до 60 млн пар вопрос-ответ
1. Переводы намайнены согласно www.aclweb.org/anthology/C10-1124 (статья просто даёт ссылку)
1. SNLI переведён с английского на все остальные 15 языков автоматически с помощью Google Translate
Кроме добавления 15 языков, модель теперь протестирована на поисковых тасках и показывает адекватное качество.
Из других интересных вещей: выложена не только transformer-based архитектура, но и CNN. CNN подходит вам сильно больше, если ваши тексты длинные, и/или вам важна производительность.
за наводку на статью спасибо @someotherusername
Yang, Cer et al. [Google], 2019
arxiv.org/abs/1907.04307
Если кто-то пользовался TFHub, то один из самых популярных модулей там - это Universal Sentence Encoder (arxiv.org/abs/1803.11175). USE - это трансформер из эпохи позднего предбертья, предобучающаяся как на unsupervised (skip-thought), так и на supervised (SNLI) тасках.
Однако USE, выложенный на TFHub был недостаточно universal, потому что он был обучен только на английском. В новой версии он поддерживает 16 языков (включая русский 🎉). Про то, как он обучается: a multi-feature question-answer prediction task, a translation ranking task, and a natural language inference task. Я надеюсь, что вы поняли, потому что это всё, что я смог выудить из статьи.
Про данные расказано немного больше и есть интересные моменты:
1. QA-пары намайнены с Reddit, StackOverflow и YahooAnswers; часть QA-датасета переведена, чтобы добить все языки хотя бы до 60 млн пар вопрос-ответ
1. Переводы намайнены согласно www.aclweb.org/anthology/C10-1124 (статья просто даёт ссылку)
1. SNLI переведён с английского на все остальные 15 языков автоматически с помощью Google Translate
Кроме добавления 15 языков, модель теперь протестирована на поисковых тасках и показывает адекватное качество.
Из других интересных вещей: выложена не только transformer-based архитектура, но и CNN. CNN подходит вам сильно больше, если ваши тексты длинные, и/или вам важна производительность.
за наводку на статью спасибо @someotherusername
И соответствующая "USE 2.0" статья из блога Гугла:
ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html
ai.googleblog.com/2019/07/multilingual-universal-sentence-encoder.html
research.google
Multilingual Universal Sentence Encoder for Semantic Retrieval
Posted by Yinfei Yang and Amin Ahmad, Software Engineers, Google Research Since it was introduced last year, “Universal Sentence Encoder (USE) for...
Вы можете не любить эту либу, только если вы её не пробовали. Теперь 1.0
twitter.com/Thom_Wolf/status/1151169470498582529
twitter.com/Thom_Wolf/status/1151169470498582529
Twitter
Thomas Wolf
🔥Pytorch-Transformers 1.0🔥 Six NLU/NLG architectures: BERT, GPT, GPT-2, Transfo-XL, XLNet, XLM Total: 27 pretrained models Still the same -Superfast onboarding -SOTA scripts: GLUE, SQuAD, Text generation New -Unified API -Access hidden-states, attentions...…
B тут Рудер зовёт к себе на работу, вдруг кто решит попробовать пройти в DeepMind
https://twitter.com/seb_ruder/status/1151521975866667019
https://twitter.com/seb_ruder/status/1151521975866667019
Twitter
Sebastian Ruder
Are you excited about building models that can understand language? Do you want to understand how humans acquire language in the first place? We have an opening for a research engineer in our team at @DeepMindAI. https://t.co/XxGxgQszsf
Вчера разобрали статью
Large Memory Layers with Product Keys
Lample et al. [FAIR]
arxiv.org/abs/1907.05242
Презентация:
https://docs.google.com/presentation/d/1T0MJa8eHmpe6Vjyz5Vd1tMs6DWqjtTPotUBt9NEUy9g
Large Memory Layers with Product Keys
Lample et al. [FAIR]
arxiv.org/abs/1907.05242
Презентация:
https://docs.google.com/presentation/d/1T0MJa8eHmpe6Vjyz5Vd1tMs6DWqjtTPotUBt9NEUy9g
arXiv.org
Large Memory Layers with Product Keys
This paper introduces a structured memory which can be easily integrated into a neural network. The memory is very large by design and significantly increases the capacity of the architecture, by...
Новости из чатика #NLP в ODS:
VK Research зарелизили код распаралелленного и ускоренного алгоритма построения словаря для BPE. Говорят, что на практике ускоряет в 5-7 раз.
Код: github.com/VKCOM/YouTokenToMe
Пост на медиуме: medium.com/@vktech/youtokentome-a-tool-for-quick-text-tokenization-from-the-vk-team-aa6341215c5a
VK Research зарелизили код распаралелленного и ускоренного алгоритма построения словаря для BPE. Говорят, что на практике ускоряет в 5-7 раз.
Код: github.com/VKCOM/YouTokenToMe
Пост на медиуме: medium.com/@vktech/youtokentome-a-tool-for-quick-text-tokenization-from-the-vk-team-aa6341215c5a
GitHub
GitHub - VKCOM/YouTokenToMe: Unsupervised text tokenizer focused on computational efficiency
Unsupervised text tokenizer focused on computational efficiency - VKCOM/YouTokenToMe
Сравнение BERT и XLNet.
TL;DR
1. Trained on the same data with an almost identical training recipe, XLNet outperforms BERT by a sizable margin on all the datasets.
1. The gains of training on 10x more data (comparing XLNet-Large-wikibooks and XLNet-Large) are smaller than the gains of switching from BERT to XLNet on 8 out of 11 benchmarks.
1. On some of the benchmarks such as CoLA and MRPC, the model trained on more data underperforms the model trained on less data.
TL;DR
1. Trained on the same data with an almost identical training recipe, XLNet outperforms BERT by a sizable margin on all the datasets.
1. The gains of training on 10x more data (comparing XLNet-Large-wikibooks and XLNet-Large) are smaller than the gains of switching from BERT to XLNet on 8 out of 11 benchmarks.
1. On some of the benchmarks such as CoLA and MRPC, the model trained on more data underperforms the model trained on less data.
#rl
На фоне домашки exploration vs exploitation.
Интересный блогпост про Montezuma’s Revenge, почему решение этой игры так важно для RL и почему решения 2018 года - это не совсем то, что нужно.
https://medium.com/@awjuliani/on-solving-montezumas-revenge-2146d83f0bc3
На фоне домашки exploration vs exploitation.
Интересный блогпост про Montezuma’s Revenge, почему решение этой игры так важно для RL и почему решения 2018 года - это не совсем то, что нужно.
https://medium.com/@awjuliani/on-solving-montezumas-revenge-2146d83f0bc3
Medium
On “solving” Montezuma’s Revenge
Looking beyond the hype of recent Deep RL successes