#rl
По-моему мы это затрагивали на занятиях, но хочу рассказать про OpenAI Spinnig Up in Deep RL
Он состоит из двух частей - кодовой базы и документации к ней. Код - это довольно понятно написанные реализации самых популярных алгоритмов RL. В документации есть довольно подробное описание каждого из них и на моём опыте он очень помог мне осознать TRPO и PPO. Тут их и советую почитать, сразу после лекции по TRPO CS294-112.
Этот сайт, по-моему, не очень подходит для изучения RL с нуля, но в качестве справочника просто идеален.
По-моему мы это затрагивали на занятиях, но хочу рассказать про OpenAI Spinnig Up in Deep RL
Он состоит из двух частей - кодовой базы и документации к ней. Код - это довольно понятно написанные реализации самых популярных алгоритмов RL. В документации есть довольно подробное описание каждого из них и на моём опыте он очень помог мне осознать TRPO и PPO. Тут их и советую почитать, сразу после лекции по TRPO CS294-112.
Этот сайт, по-моему, не очень подходит для изучения RL с нуля, но в качестве справочника просто идеален.
Вчера увидел новую статью от Alexander Rush
И она по unsupervised суммаризации
Simple Unsupervised Summarization by Contextual Matching
Zhou et Rush [Harvard]
arxiv.org/pdf/1907.13337v1.pdf
И она по unsupervised суммаризации
Simple Unsupervised Summarization by Contextual Matching
Zhou et Rush [Harvard]
arxiv.org/pdf/1907.13337v1.pdf
#rl
Хорошие материалы по
TRPO:
1. medium.com/@jonathan_hui/rl-trust-region-policy-optimization-trpo-explained-a6ee04eeeee9
1. www.depthfirstlearning.com/2018/TRPO
1. spinningup.openai.com/en/latest/algorithms/trpo.html
DDPG:
1. towardsdatascience.com/deep-deterministic-policy-gradients-explained-2d94655a9b7b
1. yanpanlau.github.io/2016/10/11/Torcs-Keras.html
TDDDPG:
1. medium.com/aureliantactics/tensorflow-implementation-of-td3-in-openai-baselines-983a2ef384db
1. spinningup.openai.com/en/latest/algorithms/td3.html
Можете просто прочитать первую ссылку и соответсвующий алгоритму spinnigup. Должно стать сильно понятнее, чем до этого.
Хорошие материалы по
TRPO:
1. medium.com/@jonathan_hui/rl-trust-region-policy-optimization-trpo-explained-a6ee04eeeee9
1. www.depthfirstlearning.com/2018/TRPO
1. spinningup.openai.com/en/latest/algorithms/trpo.html
DDPG:
1. towardsdatascience.com/deep-deterministic-policy-gradients-explained-2d94655a9b7b
1. yanpanlau.github.io/2016/10/11/Torcs-Keras.html
TDDDPG:
1. medium.com/aureliantactics/tensorflow-implementation-of-td3-in-openai-baselines-983a2ef384db
1. spinningup.openai.com/en/latest/algorithms/td3.html
Можете просто прочитать первую ссылку и соответсвующий алгоритму spinnigup. Должно стать сильно понятнее, чем до этого.
Завтра в ШАДе у нас будет аж два события: семинар по RL и reading club по интерпретации BERT.
Я уже внёс в списки тех, кто участвует в summer camp, кто-то может добавиться ещё.
Время будет сообщено позже: ориентируйтесь на 12-15 часов.
Форма для охраны. Закроется в 12:00, торопитесь. Ещё у нас маленькая аудитория (Сорбонна, а не Оксфорд), надеюсь что вас будет не очень много)
https://forms.office.com/Pages/ResponsePage.aspx?id=DQSIkWdsW0yxEjajBLZtrQAAAAAAAAAAAAMAAKZ1i4JUQlBMQURTNFRIVksxT1lFUDBSUEgzQjdHQy4u
Я уже внёс в списки тех, кто участвует в summer camp, кто-то может добавиться ещё.
Время будет сообщено позже: ориентируйтесь на 12-15 часов.
Форма для охраны. Закроется в 12:00, торопитесь. Ещё у нас маленькая аудитория (Сорбонна, а не Оксфорд), надеюсь что вас будет не очень много)
https://forms.office.com/Pages/ResponsePage.aspx?id=DQSIkWdsW0yxEjajBLZtrQAAAAAAAAAAAAMAAKZ1i4JUQlBMQURTNFRIVksxT1lFUDBSUEgzQjdHQy4u
PyTorch 1.2 и TorchText 0.4 🎉
pytorch.org/blog/pytorch-1.2-and-domain-api-release
В PyTorch:
etc.
Поддержка tensorboard вышла из статуса экспериментальной. Просто используйте
pytorch.org/blog/pytorch-1.2-and-domain-api-release
В PyTorch:
nn.Transformer
nn.TransformerEncoder
nn.TransformerEncoderLayer
etc.
Поддержка tensorboard вышла из статуса экспериментальной. Просто используйте
torch.utils.tensorboard
В torchtext завезли больше встроенных датасетов и туториалов и улучшили поддержку torch.data.dataset
PyTorch
New Releases: PyTorch 1.2, torchtext 0.4, torchaudio 0.3, and torchvision 0.4
Since the release of PyTorch 1.0, we’ve seen the community expand to add new tools, contribute to a growing set of models available in the PyTorch Hub, and continually increase usage in both research and production.
Оказывается, у RASA есть свой research blog. Они попытались ускорить берт с помощью квантизации. Вообще довольно хорошая статья с обзором методов сжатия, почитайте.
Compressing BERT for faster prediction
blog.rasa.com/compressing-bert-for-faster-prediction-2
Спойлер: не смогли, но скорее всего всё дело в TF Lite
Compressing BERT for faster prediction
blog.rasa.com/compressing-bert-for-faster-prediction-2
Спойлер: не смогли, но скорее всего всё дело в TF Lite
Rasa
Learn how to make BERT smaller and faster
Let's look at compression methods for neural networks, such as quantization and pruning. Then, we apply one to BERT using TensorFlow Lite.
Статьи, которые будут разобраны на reading club.
Кто хочет прийти - почитайте.
Кто хочет прийти - почитайте.
Forwarded from DL in NLP
Некоторые статьи по анализу того, как работает BERT. Наверное, неплохо было бы их разобрать.
Visualizing and Measuring the Geometry of BERT
arxiv.org/pdf/1906.02715.pdf
Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference
arxiv.org/abs/1902.01007
Probing Neural Network Comprehension of Natural Language Arguments
arxiv.org/abs/1907.07355
How multilingual is Multilingual BERT?
arxiv.org/pdf/1906.01502.pdf
BERT Rediscovers the Classical NLP Pipeline
arxiv.org/abs/1905.05950
What Does BERT Look At? An Analysis of BERT's Attention
arxiv.org/abs/1906.04341
Visualizing and Measuring the Geometry of BERT
arxiv.org/pdf/1906.02715.pdf
Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in Natural Language Inference
arxiv.org/abs/1902.01007
Probing Neural Network Comprehension of Natural Language Arguments
arxiv.org/abs/1907.07355
How multilingual is Multilingual BERT?
arxiv.org/pdf/1906.01502.pdf
BERT Rediscovers the Classical NLP Pipeline
arxiv.org/abs/1905.05950
What Does BERT Look At? An Analysis of BERT's Attention
arxiv.org/abs/1906.04341
arXiv.org
Right for the Wrong Reasons: Diagnosing Syntactic Heuristics in...
A machine learning system can score well on a given test set by relying on heuristics that are effective for frequent example types but break down in more challenging cases. We study this issue...
Завтра встречаемся по RL в 12
По reading club в 15:40
ШАД, Сорбонна
Будет организована трансляция на twitch, но не готов гарантировать, что она будет работать хорошо.
По reading club в 15:40
ШАД, Сорбонна
Будет организована трансляция на twitch, но не готов гарантировать, что она будет работать хорошо.
Гайд по тому, как конвертировать модели из TF в PyTorch от, наверное, самой опытной в этом команды - 🤗
Переходите на 🔥сторону.
medium.com/huggingface/from-tensorflow-to-pytorch-265f40ef2a28
Переходите на 🔥сторону.
medium.com/huggingface/from-tensorflow-to-pytorch-265f40ef2a28
Medium
🌓 From TensorFlow to PyTorch
Friends and users of our open-source tools are often surprised how fast 🚀 we reimplement the latest SOTA pretrained TensorFlow models to…
ppo2.ipynb
46.2 KB
#rl
Как обещал, упрощённая версия задания по PPO. Буду рад фидбэку - что слишком сложно, что слишком просто, где плохое описание.
Как обещал, упрощённая версия задания по PPO. Буду рад фидбэку - что слишком сложно, что слишком просто, где плохое описание.