強化学習ひとり Advent Calendar 2017

Deep RL Bootcampの内容をまとめて
https://sites.google.com/view/deep-rl-bootcamp/lectures
それが終わったら、強化学習アーキテクチャ勉強会で紹介されている論文を読んでみる (無理ゲーかも)
https://rlarch.connpass.com/

SUN	MON	TUE	WED	THU	FRI	SAT
					1 ksyundo	2 ksyundo
3 ksyundo	4 ksyundo	5 ksyundo	6 ksyundo	7 ksyundo	8 ksyundo	9 ksyundo
10 ksyundo	11 ksyundo	12 ksyundo	13 ksyundo	14 ksyundo	15 ksyundo	16 ksyundo
17 ksyundo	18 ksyundo	19 ksyundo	20 ksyundo	21 ksyundo	22 ksyundo	23 ksyundo
24 ksyundo	25 ksyundo

12/1

ksyundo

MDPとベルマン方程式

http://blog.syundo.org/post/20160410-reinforcement-learning-mdp-belman-equation/

強化学習についてまとめる(1) MDPとベルマン方程式 | ROBO LOG
12/2

ksyundo

反復による価値の推定

http://blog.syundo.org/post/20171110-reinforcement-value-policy-iteration/

強化学習についてまとめる(2) 反復による価値の推定 | ROBO LOG
12/3

ksyundo

方策勾配

http://blog.syundo.org/post/20171117-reinforcement-learning-policy-gradient/

強化学習についてまとめる(3) 方策勾配 | ROBO LOG
12/4

ksyundo

Actor-Critic

http://blog.syundo.org/post/20171202-reinforcement-learning-policy-gradient-algorithms/

強化学習についてまとめる(4) 方策勾配に基づくアルゴリズム、Actor-Critic | ROBO LOG
12/5

ksyundo

自然勾配とTRPO,PPO

http://blog.syundo.org/post/20171204-reinforcement-learning-natural-policy-gradient-trpo-ppo/

強化学習についてまとめる(5) 自然方策勾配法とTRPO, PPO | ROBO LOG
12/6

ksyundo

モデルベース強化学習

http://blog.syundo.org/post/20171206-reinforcement-learning-model-based-rl/

強化学習についてまとめる(6) モデルベース強化学習 | ROBO LOG
12/7

ksyundo

DQN, DDQNと実装

http://blog.syundo.org/post/20171208-reinforcement-learning-dqn-and-impl/

強化学習についてまとめる(7) DQNとDDQN | ROBO LOG
12/8

ksyundo

OpenAI gym

http://blog.syundo.org/post/20180204-open-ai-gym/

Open AI Gym & MuJoCo を使う | ROBO LOG
12/9

ksyundo

DeepMimic

http://blog.syundo.org/post/20180503-deep-mimic/

論文 DeepMimic: Example-Guided Deep Reinforcement Learning of Physics-Based Character Skills | ROBO LOG
12/10

ksyundo

Neural Episodic Control

http://blog.syundo.org/post/20180503-neural-episodic-control/

論文 Neural Episodic Control | ROBO LOG
12/11

ksyundo

SVG/DPG/DDPG

http://blog.syundo.org/post/20180714-reinforcement-learning-pathwise-derivative-method/

pathwise derivative method: Stocastic Value Gradient(SVG), (Deep) Deterministic Policy Gradient(DPG/DDPG)
12/12

ksyundo

DDP/iLQR/SLQ

http://blog.syundo.org/post/20180917-ddp-ilqr-slq/

Differential Dynamic Programming(DDP)/iterative LQR(iLQR)/Sequential LQR(SLQ)
12/13

ksyundo

RND

http://blog.syundo.org/post/20181107-exploration-by-random-network-distillation/

論文 Exploration by Random Network Distillation
12/14

ksyundo

Learning Complex Dexterous Manipulation With Deep Reinforcement Learning and Demonstrations

http://blog.syundo.org/post/20180120-learning-complex-dexterous-manipulation-with-deep-reinforcement-learning-and-demonstrations/

論文 Learning Complex Dexterous Manipulation With Deep Reinforcement Learning and Demonstrations
12/15

ksyundo
12/16

ksyundo
12/17

ksyundo
12/18

ksyundo
12/19

ksyundo
12/20

ksyundo
12/21

ksyundo
12/22

ksyundo
12/23

ksyundo
12/24

ksyundo
12/25

ksyundo