Тут в чате говорят, новую соту завезли 🎉 (на самом деле нет, RoBERTa всё равно лучше на GLUE).
Но если серьёзнее, то Baidu (не путать с Badoo) Research несколько дней назад представила свою модель ERNIE (Enhanced Representation through kNowledge IntEgration) 2.0.
Идея метода предобученния состоит примерно в следующем:
0. Толстый трансформер (как и у всех)
1. Continual pre-training: сразу несколько self-supervised (или weak-supervised) задач на уровне слов, синтаксиса и семантики
2. ERNIE стартует с одной из этих задач и постепенно во время обучения добавляются новые, более сложные
3. К каждому слову добавляется специальный эмбеддинг в зависимости от задачи
Подробнее про задачи:
1. Word-aware Pre-training Tasks:
1.1 Knowledge Masking - masked language model++, в котором маскируются фразы и именованные сущности, подробнее в статье про ERNIE 1.0
1.2 Capitalization Prediction - да, просто предсказывать, является ли это слово капитализированным. Забавная идея.
1.3 Token-Document Relation Prediction - предсказывается, появляется ли данное слово хотя бы ещё раз в данном документе. Тоже очень интересная идея - таким образом можно пытаться извлекать ключевые слова.
2. Structure-aware Pre-training Tasks
2.1 Sentence Reordering - N предложений случайно шаффлятся, после чего нужно предсказать их оригинальный порядок.
2.2 Sentence Distance - классификация пар предложений на три класса: идут подряд / находятся в одном документе / находятся в разных документах
3. Semantic-aware Pre-training Tasks
3.1 Discourse Relation - если я правильно понял, то это дисстиляция semantic relation модели
3.2 IR Relevance - тк Baidu это поисковик, у них есть логи поиска. Они и используются в этой задаче. По query и title нужно предсказать один из трёх классов: 0 - the title is clicked by the users after they input the query, 1 - these titles appear in the search results but failed to be clicked by users, 2 - the query and title are completely irrelevant
за ссылку на статью спасибо @Cookie_thief
Статья довольно неплохо написана, советую почитать
UPD: нету абляционных исследований 😫
ERNIE 2.0: A Continual Pre-Trainining Framework for Language Understanding
Sun et al. [Baidu]
arxiv.org/pdf/1907.12412v1.pdf
Но если серьёзнее, то Baidu (не путать с Badoo) Research несколько дней назад представила свою модель ERNIE (Enhanced Representation through kNowledge IntEgration) 2.0.
Идея метода предобученния состоит примерно в следующем:
0. Толстый трансформер (как и у всех)
1. Continual pre-training: сразу несколько self-supervised (или weak-supervised) задач на уровне слов, синтаксиса и семантики
2. ERNIE стартует с одной из этих задач и постепенно во время обучения добавляются новые, более сложные
3. К каждому слову добавляется специальный эмбеддинг в зависимости от задачи
Подробнее про задачи:
1. Word-aware Pre-training Tasks:
1.1 Knowledge Masking - masked language model++, в котором маскируются фразы и именованные сущности, подробнее в статье про ERNIE 1.0
1.2 Capitalization Prediction - да, просто предсказывать, является ли это слово капитализированным. Забавная идея.
1.3 Token-Document Relation Prediction - предсказывается, появляется ли данное слово хотя бы ещё раз в данном документе. Тоже очень интересная идея - таким образом можно пытаться извлекать ключевые слова.
2. Structure-aware Pre-training Tasks
2.1 Sentence Reordering - N предложений случайно шаффлятся, после чего нужно предсказать их оригинальный порядок.
2.2 Sentence Distance - классификация пар предложений на три класса: идут подряд / находятся в одном документе / находятся в разных документах
3. Semantic-aware Pre-training Tasks
3.1 Discourse Relation - если я правильно понял, то это дисстиляция semantic relation модели
3.2 IR Relevance - тк Baidu это поисковик, у них есть логи поиска. Они и используются в этой задаче. По query и title нужно предсказать один из трёх классов: 0 - the title is clicked by the users after they input the query, 1 - these titles appear in the search results but failed to be clicked by users, 2 - the query and title are completely irrelevant
за ссылку на статью спасибо @Cookie_thief
Статья довольно неплохо написана, советую почитать
UPD: нету абляционных исследований 😫
ERNIE 2.0: A Continual Pre-Trainining Framework for Language Understanding
Sun et al. [Baidu]
arxiv.org/pdf/1907.12412v1.pdf
Подробности предобучения:
1. 64 V100
1. float16
1. Adam(eta=5e-5, beta1=0.9, beta2=0.98), прогрев в течение первых 4 000 батчей
1. число токенов в батче: 393 216 (наверное что-то близкое к maxseqlen=512, batch_size=768)
#rl
Последнее занятие близится. Темы жёсткие, но давайте попробуем успеть как можно больше:
1. TRPO, PPO (затронули на прошлом семинаре)
1. DDPG, TD3, SAC (скорее всего только теория)
Ещё, если успеем:
1. Planning, model-based RL
1. Imitation learning
Аналогично прошлому разу, приносите ноутбуки, будем решать задания вместе.
Для PPO ближе к середине недели появится более простая версия задания. TD3 и SAC в яндексовом курсе нет, но мы что-нибудь придумаем, это очень крутые алгоритмы. Каждый день буду постить доп. материалы, чтобы было проще.
Последнее занятие близится. Темы жёсткие, но давайте попробуем успеть как можно больше:
1. TRPO, PPO (затронули на прошлом семинаре)
1. DDPG, TD3, SAC (скорее всего только теория)
Ещё, если успеем:
1. Planning, model-based RL
1. Imitation learning
Аналогично прошлому разу, приносите ноутбуки, будем решать задания вместе.
Для PPO ближе к середине недели появится более простая версия задания. TD3 и SAC в яндексовом курсе нет, но мы что-нибудь придумаем, это очень крутые алгоритмы. Каждый день буду постить доп. материалы, чтобы было проще.
#rl
По-моему мы это затрагивали на занятиях, но хочу рассказать про OpenAI Spinnig Up in Deep RL
Он состоит из двух частей - кодовой базы и документации к ней. Код - это довольно понятно написанные реализации самых популярных алгоритмов RL. В документации есть довольно подробное описание каждого из них и на моём опыте он очень помог мне осознать TRPO и PPO. Тут их и советую почитать, сразу после лекции по TRPO CS294-112.
Этот сайт, по-моему, не очень подходит для изучения RL с нуля, но в качестве справочника просто идеален.
По-моему мы это затрагивали на занятиях, но хочу рассказать про OpenAI Spinnig Up in Deep RL
Он состоит из двух частей - кодовой базы и документации к ней. Код - это довольно понятно написанные реализации самых популярных алгоритмов RL. В документации есть довольно подробное описание каждого из них и на моём опыте он очень помог мне осознать TRPO и PPO. Тут их и советую почитать, сразу после лекции по TRPO CS294-112.
Этот сайт, по-моему, не очень подходит для изучения RL с нуля, но в качестве справочника просто идеален.
Вчера увидел новую статью от Alexander Rush
И она по unsupervised суммаризации
Simple Unsupervised Summarization by Contextual Matching
Zhou et Rush [Harvard]
arxiv.org/pdf/1907.13337v1.pdf
И она по unsupervised суммаризации
Simple Unsupervised Summarization by Contextual Matching
Zhou et Rush [Harvard]
arxiv.org/pdf/1907.13337v1.pdf
#rl
Хорошие материалы по
TRPO:
1. medium.com/@jonathan_hui/rl-trust-region-policy-optimization-trpo-explained-a6ee04eeeee9
1. www.depthfirstlearning.com/2018/TRPO
1. spinningup.openai.com/en/latest/algorithms/trpo.html
DDPG:
1. towardsdatascience.com/deep-deterministic-policy-gradients-explained-2d94655a9b7b
1. yanpanlau.github.io/2016/10/11/Torcs-Keras.html
TDDDPG:
1. medium.com/aureliantactics/tensorflow-implementation-of-td3-in-openai-baselines-983a2ef384db
1. spinningup.openai.com/en/latest/algorithms/td3.html
Можете просто прочитать первую ссылку и соответсвующий алгоритму spinnigup. Должно стать сильно понятнее, чем до этого.
Хорошие материалы по
TRPO:
1. medium.com/@jonathan_hui/rl-trust-region-policy-optimization-trpo-explained-a6ee04eeeee9
1. www.depthfirstlearning.com/2018/TRPO
1. spinningup.openai.com/en/latest/algorithms/trpo.html
DDPG:
1. towardsdatascience.com/deep-deterministic-policy-gradients-explained-2d94655a9b7b
1. yanpanlau.github.io/2016/10/11/Torcs-Keras.html
TDDDPG:
1. medium.com/aureliantactics/tensorflow-implementation-of-td3-in-openai-baselines-983a2ef384db
1. spinningup.openai.com/en/latest/algorithms/td3.html
Можете просто прочитать первую ссылку и соответсвующий алгоритму spinnigup. Должно стать сильно понятнее, чем до этого.
Завтра в ШАДе у нас будет аж два события: семинар по RL и reading club по интерпретации BERT.
Я уже внёс в списки тех, кто участвует в summer camp, кто-то может добавиться ещё.
Время будет сообщено позже: ориентируйтесь на 12-15 часов.
Форма для охраны. Закроется в 12:00, торопитесь. Ещё у нас маленькая аудитория (Сорбонна, а не Оксфорд), надеюсь что вас будет не очень много)
https://forms.office.com/Pages/ResponsePage.aspx?id=DQSIkWdsW0yxEjajBLZtrQAAAAAAAAAAAAMAAKZ1i4JUQlBMQURTNFRIVksxT1lFUDBSUEgzQjdHQy4u
Я уже внёс в списки тех, кто участвует в summer camp, кто-то может добавиться ещё.
Время будет сообщено позже: ориентируйтесь на 12-15 часов.
Форма для охраны. Закроется в 12:00, торопитесь. Ещё у нас маленькая аудитория (Сорбонна, а не Оксфорд), надеюсь что вас будет не очень много)
https://forms.office.com/Pages/ResponsePage.aspx?id=DQSIkWdsW0yxEjajBLZtrQAAAAAAAAAAAAMAAKZ1i4JUQlBMQURTNFRIVksxT1lFUDBSUEgzQjdHQy4u
PyTorch 1.2 и TorchText 0.4 🎉
pytorch.org/blog/pytorch-1.2-and-domain-api-release
В PyTorch:
etc.
Поддержка tensorboard вышла из статуса экспериментальной. Просто используйте
pytorch.org/blog/pytorch-1.2-and-domain-api-release
В PyTorch:
nn.Transformer
nn.TransformerEncoder
nn.TransformerEncoderLayer
etc.
Поддержка tensorboard вышла из статуса экспериментальной. Просто используйте
torch.utils.tensorboard
В torchtext завезли больше встроенных датасетов и туториалов и улучшили поддержку torch.data.dataset
PyTorch
New Releases: PyTorch 1.2, torchtext 0.4, torchaudio 0.3, and torchvision 0.4
Since the release of PyTorch 1.0, we’ve seen the community expand to add new tools, contribute to a growing set of models available in the PyTorch Hub, and continually increase usage in both research and production.
Оказывается, у RASA есть свой research blog. Они попытались ускорить берт с помощью квантизации. Вообще довольно хорошая статья с обзором методов сжатия, почитайте.
Compressing BERT for faster prediction
blog.rasa.com/compressing-bert-for-faster-prediction-2
Спойлер: не смогли, но скорее всего всё дело в TF Lite
Compressing BERT for faster prediction
blog.rasa.com/compressing-bert-for-faster-prediction-2
Спойлер: не смогли, но скорее всего всё дело в TF Lite
Rasa
Learn how to make BERT smaller and faster
Let's look at compression methods for neural networks, such as quantization and pruning. Then, we apply one to BERT using TensorFlow Lite.