seminar_py3.zip
143.5 KB
#rl Тем, кто хочет решать pacman на python3, потому что уже не 16 век.
#rl Сегодня первый раз встречаемся по RL 🎉
С вас ожидаются 3 решённых домашки и просмотренных лекции
Время: 19:00
Место: Физтех.Цифра 522
Если у вас нету пропуска на физтех, вам нужно записаться в эту форму. Она закроется в 11:30
https://forms.gle/YveFP7hdDXSL3tCz8
С вас ожидаются 3 решённых домашки и просмотренных лекции
Время: 19:00
Место: Физтех.Цифра 522
Если у вас нету пропуска на физтех, вам нужно записаться в эту форму. Она закроется в 11:30
https://forms.gle/YveFP7hdDXSL3tCz8
Google Docs
Совместное прохождение курса по RL
Проходим курс ШАДа https://github.com/yandexdataschool/Practical_RL
За 1 месяц
Смотрим лекции и делаем домашки дома, собираемся в долгопе, чтобы обсудить неочевидные моменты
Удалённого посещения занятий предусмотренно не будет, тк не тот формат, но вы можете…
За 1 месяц
Смотрим лекции и делаем домашки дома, собираемся в долгопе, чтобы обсудить неочевидные моменты
Удалённого посещения занятий предусмотренно не будет, тк не тот формат, но вы можете…
#rl Мне показалось, что в курсе не хватает теоретических заданий
К следующему занятию (через неделю) планирую решить теоретические задачки первой домашки стенфордского курса cs234
Подключайтесь
К следующему занятию (через неделю) планирую решить теоретические задачки первой домашки стенфордского курса cs234
Подключайтесь
#rl Сори, у нас произошла накладка со списками. Тем, у кого нет пропусков (и кто не с summer camp) нужно будет по приходу на охрану написать @dropout05, чтобы я спустился и пропустил вас.
Ровно по этой же причине просьба не опаздывать, начнём в 19:10.
Ровно по этой же причине просьба не опаздывать, начнём в 19:10.
#rl @laggg5 продолжает спонсировать нас материалами по Q-learning et al., спасибо ему за это
Reinforcement learning: Temporal-Difference, SARSA, Q-Learning & Expected SARSA in python
Кроме того, что есть в заголовке, в статье описывается отличие on-policy от off-policy, которое вчера на семинаре показалось нам неочивидным.
towardsdatascience.com/reinforcement-learning-temporal-difference-sarsa-q-learning-expected-sarsa-on-python-9fecfda7467e
Reinforcement learning: Temporal-Difference, SARSA, Q-Learning & Expected SARSA in python
Кроме того, что есть в заголовке, в статье описывается отличие on-policy от off-policy, которое вчера на семинаре показалось нам неочивидным.
towardsdatascience.com/reinforcement-learning-temporal-difference-sarsa-q-learning-expected-sarsa-on-python-9fecfda7467e
Medium
Reinforcement learning: Temporal-Difference, SARSA, Q-Learning & Expected SARSA in python
TD, SARSA, Q-Learning & Expected SARSA along with their python implementation and comparison
#rl
К сожалению, на этой неделе не получится провести rl-встречу в четверг, переносим её на неделю вперёд. Надеюсь, что это увеличит число решённых заданий.
Прошу обратить внимание, что в четвёртой задаче агент учится часов 6 на GPU (при условии что всё написано без ошибок, у вас хорошие гиперпараметры и звёзды на небе расположенны благосклонно), так что начинайте её как можно раньше.
К сожалению, на этой неделе не получится провести rl-встречу в четверг, переносим её на неделю вперёд. Надеюсь, что это увеличит число решённых заданий.
Прошу обратить внимание, что в четвёртой задаче агент учится часов 6 на GPU (при условии что всё написано без ошибок, у вас хорошие гиперпараметры и звёзды на небе расположенны благосклонно), так что начинайте её как можно раньше.
#rl
На фоне домашки exploration vs exploitation.
Интересный блогпост про Montezuma’s Revenge, почему решение этой игры так важно для RL и почему решения 2018 года - это не совсем то, что нужно.
https://medium.com/@awjuliani/on-solving-montezumas-revenge-2146d83f0bc3
На фоне домашки exploration vs exploitation.
Интересный блогпост про Montezuma’s Revenge, почему решение этой игры так важно для RL и почему решения 2018 года - это не совсем то, что нужно.
https://medium.com/@awjuliani/on-solving-montezumas-revenge-2146d83f0bc3
Medium
On “solving” Montezuma’s Revenge
Looking beyond the hype of recent Deep RL successes
DL in NLP
#rl На этой неделе встречаемся обсудить лекции и домашки по следующим темам: 1. DQN 1. Exploration vs exploitation (в тч байесовские методы) 1. Policy gradients Домашки жёсткие, но интересные. Приходите. Четверг, 19:00, 522 Цифра
#rl
Всем привет! Напоминаю, что сегодня собираемся в 19 часов в 522 Цифра
Всем привет! Напоминаю, что сегодня собираемся в 19 часов в 522 Цифра
#rl
Мы довольно быстро движемся по яндексовому курсу и у нас получается около недели в запасе. Поэтому предлагаю в этот четверг встретиться в формате практического занятия на котором разберём самые интересные домашки и пофиксим баги друг друга.
Ну и, конечно, надо просмотреть и выполнить что можете по 7 8 9 лекциям
Они не такие сложные, как я думал (по крайней мере 7 и 8)
Время и место стандартные: 19 часов, 522 Цифра
не забудьте ноутбуки
Мы довольно быстро движемся по яндексовому курсу и у нас получается около недели в запасе. Поэтому предлагаю в этот четверг встретиться в формате практического занятия на котором разберём самые интересные домашки и пофиксим баги друг друга.
Ну и, конечно, надо просмотреть и выполнить что можете по 7 8 9 лекциям
Они не такие сложные, как я думал (по крайней мере 7 и 8)
Время и место стандартные: 19 часов, 522 Цифра
не забудьте ноутбуки
#rl
Если вы всё ещё чувствуете, что не понимаете как работает policy gradient или actor-critic (что абсолютно нормально, я понял их раза с 4), очень советую внимательно просмотреть лекции Сергея Левина из Berkeley. Вместо примерно полуторачасового объяснения Яндекса с опусканием матана за всем этим вам предоставят почти 3 часа опускания матаном вас. Но если смотреть очень внимательно, всё очень хорошо объяснено.
1. Policy Gradients
2. Actor-Critic Algorithms
А ещё по-видимому мы закончим наш курс первой домашкой Berkeley cs294-112 по imitation learning
Если вы всё ещё чувствуете, что не понимаете как работает policy gradient или actor-critic (что абсолютно нормально, я понял их раза с 4), очень советую внимательно просмотреть лекции Сергея Левина из Berkeley. Вместо примерно полуторачасового объяснения Яндекса с опусканием матана за всем этим вам предоставят почти 3 часа опускания матаном вас. Но если смотреть очень внимательно, всё очень хорошо объяснено.
1. Policy Gradients
2. Actor-Critic Algorithms
А ещё по-видимому мы закончим наш курс первой домашкой Berkeley cs294-112 по imitation learning
YouTube
CS294-112 Fa18 9/5/18
#rl
Последнее занятие близится. Темы жёсткие, но давайте попробуем успеть как можно больше:
1. TRPO, PPO (затронули на прошлом семинаре)
1. DDPG, TD3, SAC (скорее всего только теория)
Ещё, если успеем:
1. Planning, model-based RL
1. Imitation learning
Аналогично прошлому разу, приносите ноутбуки, будем решать задания вместе.
Для PPO ближе к середине недели появится более простая версия задания. TD3 и SAC в яндексовом курсе нет, но мы что-нибудь придумаем, это очень крутые алгоритмы. Каждый день буду постить доп. материалы, чтобы было проще.
Последнее занятие близится. Темы жёсткие, но давайте попробуем успеть как можно больше:
1. TRPO, PPO (затронули на прошлом семинаре)
1. DDPG, TD3, SAC (скорее всего только теория)
Ещё, если успеем:
1. Planning, model-based RL
1. Imitation learning
Аналогично прошлому разу, приносите ноутбуки, будем решать задания вместе.
Для PPO ближе к середине недели появится более простая версия задания. TD3 и SAC в яндексовом курсе нет, но мы что-нибудь придумаем, это очень крутые алгоритмы. Каждый день буду постить доп. материалы, чтобы было проще.
#rl
По-моему мы это затрагивали на занятиях, но хочу рассказать про OpenAI Spinnig Up in Deep RL
Он состоит из двух частей - кодовой базы и документации к ней. Код - это довольно понятно написанные реализации самых популярных алгоритмов RL. В документации есть довольно подробное описание каждого из них и на моём опыте он очень помог мне осознать TRPO и PPO. Тут их и советую почитать, сразу после лекции по TRPO CS294-112.
Этот сайт, по-моему, не очень подходит для изучения RL с нуля, но в качестве справочника просто идеален.
По-моему мы это затрагивали на занятиях, но хочу рассказать про OpenAI Spinnig Up in Deep RL
Он состоит из двух частей - кодовой базы и документации к ней. Код - это довольно понятно написанные реализации самых популярных алгоритмов RL. В документации есть довольно подробное описание каждого из них и на моём опыте он очень помог мне осознать TRPO и PPO. Тут их и советую почитать, сразу после лекции по TRPO CS294-112.
Этот сайт, по-моему, не очень подходит для изучения RL с нуля, но в качестве справочника просто идеален.
#rl
Хорошие материалы по
TRPO:
1. medium.com/@jonathan_hui/rl-trust-region-policy-optimization-trpo-explained-a6ee04eeeee9
1. www.depthfirstlearning.com/2018/TRPO
1. spinningup.openai.com/en/latest/algorithms/trpo.html
DDPG:
1. towardsdatascience.com/deep-deterministic-policy-gradients-explained-2d94655a9b7b
1. yanpanlau.github.io/2016/10/11/Torcs-Keras.html
TDDDPG:
1. medium.com/aureliantactics/tensorflow-implementation-of-td3-in-openai-baselines-983a2ef384db
1. spinningup.openai.com/en/latest/algorithms/td3.html
Можете просто прочитать первую ссылку и соответсвующий алгоритму spinnigup. Должно стать сильно понятнее, чем до этого.
Хорошие материалы по
TRPO:
1. medium.com/@jonathan_hui/rl-trust-region-policy-optimization-trpo-explained-a6ee04eeeee9
1. www.depthfirstlearning.com/2018/TRPO
1. spinningup.openai.com/en/latest/algorithms/trpo.html
DDPG:
1. towardsdatascience.com/deep-deterministic-policy-gradients-explained-2d94655a9b7b
1. yanpanlau.github.io/2016/10/11/Torcs-Keras.html
TDDDPG:
1. medium.com/aureliantactics/tensorflow-implementation-of-td3-in-openai-baselines-983a2ef384db
1. spinningup.openai.com/en/latest/algorithms/td3.html
Можете просто прочитать первую ссылку и соответсвующий алгоритму spinnigup. Должно стать сильно понятнее, чем до этого.
ppo2.ipynb
46.2 KB
#rl
Как обещал, упрощённая версия задания по PPO. Буду рад фидбэку - что слишком сложно, что слишком просто, где плохое описание.
Как обещал, упрощённая версия задания по PPO. Буду рад фидбэку - что слишком сложно, что слишком просто, где плохое описание.
#rl
Свежий запуск курса по deep learning в rl от Сергея Левина идёт прямо сейчас. Можно подключаться.
twitter.com/svlevine/status/1178420131078107136
Свежий запуск курса по deep learning в rl от Сергея Левина идёт прямо сейчас. Можно подключаться.
twitter.com/svlevine/status/1178420131078107136
Twitter
Sergey Levine
Want to learn deep RL? My deep RL course now has a permanent course number (CS285) and is being offered this semester: https://t.co/tAGzTDfvUc Lecture videos here (so far, we've gotten through most of model-free RL, model-based RL coming up next): https:…