DL in NLP
12.5K subscribers
547 photos
13 videos
27 files
1.1K links
Новости и обзоры статей на тему обработки естественного языка, нейросетей и всего такого.

Связь: @dropout05 (рекламы нет)
加入频道
seminar_py3.zip
143.5 KB
#rl Тем, кто хочет решать pacman на python3, потому что уже не 16 век.
#rl Сегодня первый раз встречаемся по RL 🎉
С вас ожидаются 3 решённых домашки и просмотренных лекции

Время: 19:00
Место: Физтех.Цифра 522

Если у вас нету пропуска на физтех, вам нужно записаться в эту форму. Она закроется в 11:30
https://forms.gle/YveFP7hdDXSL3tCz8
#rl Мне показалось, что в курсе не хватает теоретических заданий
К следующему занятию (через неделю) планирую решить теоретические задачки первой домашки стенфордского курса cs234

Подключайтесь
#rl Сори, у нас произошла накладка со списками. Тем, у кого нет пропусков (и кто не с summer camp) нужно будет по приходу на охрану написать @dropout05, чтобы я спустился и пропустил вас.
Ровно по этой же причине просьба не опаздывать, начнём в 19:10.
#rl @laggg5 продолжает спонсировать нас материалами по Q-learning et al., спасибо ему за это

Reinforcement learning: Temporal-Difference, SARSA, Q-Learning & Expected SARSA in python
Кроме того, что есть в заголовке, в статье описывается отличие on-policy от off-policy, которое вчера на семинаре показалось нам неочивидным.

towardsdatascience.com/reinforcement-learning-temporal-difference-sarsa-q-learning-expected-sarsa-on-python-9fecfda7467e
Снова #rl

К следущему четвергу смотрим следующие лекции:
week 4 Approximate RL
week 5 Exploration
week 5 Policy Gradient methods

и делаем соответствующие домашки
#rl

К сожалению, на этой неделе не получится провести rl-встречу в четверг, переносим её на неделю вперёд. Надеюсь, что это увеличит число решённых заданий.

Прошу обратить внимание, что в четвёртой задаче агент учится часов 6 на GPU (при условии что всё написано без ошибок, у вас хорошие гиперпараметры и звёзды на небе расположенны благосклонно), так что начинайте её как можно раньше.
#rl
На этой неделе встречаемся обсудить лекции и домашки по следующим темам:
1. DQN
1. Exploration vs exploitation (в тч байесовские методы)
1. Policy gradients

Домашки жёсткие, но интересные. Приходите.

Четверг, 19:00, 522 Цифра
#rl

На фоне домашки exploration vs exploitation.
Интересный блогпост про Montezuma’s Revenge, почему решение этой игры так важно для RL и почему решения 2018 года - это не совсем то, что нужно.

https://medium.com/@awjuliani/on-solving-montezumas-revenge-2146d83f0bc3
#rl
Мы довольно быстро движемся по яндексовому курсу и у нас получается около недели в запасе. Поэтому предлагаю в этот четверг встретиться в формате практического занятия на котором разберём самые интересные домашки и пофиксим баги друг друга.

Ну и, конечно, надо просмотреть и выполнить что можете по 7 8 9 лекциям
Они не такие сложные, как я думал (по крайней мере 7 и 8)

Время и место стандартные: 19 часов, 522 Цифра
не забудьте ноутбуки
#rl
Если вы всё ещё чувствуете, что не понимаете как работает policy gradient или actor-critic (что абсолютно нормально, я понял их раза с 4), очень советую внимательно просмотреть лекции Сергея Левина из Berkeley. Вместо примерно полуторачасового объяснения Яндекса с опусканием матана за всем этим вам предоставят почти 3 часа опускания матаном вас. Но если смотреть очень внимательно, всё очень хорошо объяснено.

1. Policy Gradients
2. Actor-Critic Algorithms

А ещё по-видимому мы закончим наш курс первой домашкой Berkeley cs294-112 по imitation learning
#rl
Последнее занятие близится. Темы жёсткие, но давайте попробуем успеть как можно больше:

1. TRPO, PPO (затронули на прошлом семинаре)
1. DDPG, TD3, SAC (скорее всего только теория)

Ещё, если успеем:
1. Planning, model-based RL
1. Imitation learning

Аналогично прошлому разу, приносите ноутбуки, будем решать задания вместе.

Для PPO ближе к середине недели появится более простая версия задания. TD3 и SAC в яндексовом курсе нет, но мы что-нибудь придумаем, это очень крутые алгоритмы. Каждый день буду постить доп. материалы, чтобы было проще.
#rl

По-моему мы это затрагивали на занятиях, но хочу рассказать про OpenAI Spinnig Up in Deep RL
Он состоит из двух частей - кодовой базы и документации к ней. Код - это довольно понятно написанные реализации самых популярных алгоритмов RL. В документации есть довольно подробное описание каждого из них и на моём опыте он очень помог мне осознать TRPO и PPO. Тут их и советую почитать, сразу после лекции по TRPO CS294-112.

Этот сайт, по-моему, не очень подходит для изучения RL с нуля, но в качестве справочника просто идеален.
#rl
Сегодня занятия по RL не будет. Устроим голосовалку в чате, когда его провести.
ppo2.ipynb
46.2 KB
#rl

Как обещал, упрощённая версия задания по PPO. Буду рад фидбэку - что слишком сложно, что слишком просто, где плохое описание.
Всвязи с окончанием курса по #rl . Было весело.