強化学習苦手の会 Advent Calendar 2020

こちらは強化学習苦手の会です。強化学習若手の会の分会になります。
本会の目的は、強化学習への理解を深めたい人同士の交流です。若手の会と異なるところは、実際に自分で手を動かしていくことの支援に重点を置いている点です。一人で強化学習を勉強していくのがつらい方、初学者の方を歓迎しております。

本会では、個人が自由に設定した強化学習プロジェクトを進める「もくもく会」を行っています。
もくもく会では、定期的に有志で決まった時間に集まり、各々の強化学習プロジェクト（本を勉強したり、論文を読んだり、実装したりなど）を進めています。他の人も自分のプロジェクトを進めているという意識を持つことで、一人ではなかなか得られなかった進捗を生み出します。

強化学習苦手の会の活動場所はDiscordです。ご興味ある方はこちらからご参加ください。（2020.11.29 リンクが期限切れになっていたようで、更新しました。）
https://discord.gg/t5PumCmDQX

このAdvent Calendarでは、強化学習苦手の会の人々にご自身のプロジェクトでやっていることや、学んだこと、最近考えていることなど自由にご寄稿いただけると幸いです。強化学習苦手の会を盛り上げていきましょう！

SUN	MON	TUE	WED	THU	FRI	SAT
		1 Seitaro Shinagawa	2	3 Seitaro Shinagawa	4	5 Seitaro Shinagawa
6	7 あるふ（高度AI人材らしい）	8 threecourse	9 Katsuki Ohto	10 Seitaro Shinagawa	11 caesar_wanya	12 きょうへい
13 syuntoku14	14 Seitaro Shinagawa	15 Kentaro Nakanishi	16 Seitaro Shinagawa	17 kiyo	18 caesar_wanya	19 ashigirl96
20 Yuji Kanagawa	21 Kei Ohta	22 Takuma Wakamori	23 GO	24 Seitaro Shinagawa	25 Seitaro Shinagawa

12/1

Seitaro Shinagawa

もくもく会はイイゾ（強化学習苦手の会をはじめてみて2ヶ月、得られた効果）

https://snowman-88888.hatenablog.com/entry/2020/12/01/070000

強化学習苦手の会（もくもく会）をはじめて2ヶ月近く経った結果 - Seitaro Shinagawaの雑記帳
12/3

Seitaro Shinagawa

言語生成の強化学習をやっていく（手法紹介 REINFORCE編）

https://snowman-88888.hatenablog.com/entry/2020/12/03/070000

言語生成の強化学習をやっていく（手法紹介 REINFORCE編） - Seitaro Shinagawaの雑記帳
12/5

Seitaro Shinagawa

言語生成の強化学習をやっていく（手法紹介 Actor-Critic編）

https://snowman-88888.hatenablog.com/entry/2020/12/05/070000

言語生成の強化学習をやっていく（手法紹介 Actor-Critic編①） - Seitaro Shinagawaの雑記帳
12/7

あるふ（高度AI人材らしい）

kaggleの強化学習コンペがグダグダだった話

https://qiita.com/alfredplpl/items/96bf08b0f0643b45faa2

Kaggleの強化学習コンペがグダグダだった話 - Qiita
12/8

threecourse

kaggleの強化学習コンペを少しだけ頑張った話

https://threecourse.hatenablog.com/entry/2020/09/17/014155

Kaggle Haliteを強化学習で解こうとした話 - threecourse’s blog
12/9

Katsuki Ohto

オフポリシー強化学習のすゝめ

https://qiita.com/YuriCat/items/5c2a676a67981ecca94a

オフポリシー強化学習のすゝめ - Qiita
12/10

Seitaro Shinagawa

言語生成の強化学習をやっていく（手法紹介 Deep Q-learning編）

https://snowman-88888.hatenablog.com/entry/2020/12/10/235630

言語生成の強化学習をやっていく（手法紹介 Actor-Critic編②） - Seitaro Shinagawaの雑記帳
12/11

caesar_wanya

Q学習からDQNまで

https://caesar-wanya.hatenadiary.org/entry/2020/12/11/003740

Q学習からDQNまで - あしたからがんばる ―椀屋本舗
12/12

きょうへい

サッカーを強化学習する

https://kutohonn.hatenablog.com/entry/2020/12/12/091707?_ga=2.69257111.686865008.1607702238-1842031610.1606824598

サッカーを強化学習する - 思考の本棚
12/13

syuntoku14

研究用のRLフレームワークを作ってる話

https://syuntoku1414.hatenablog.com/entry/debugRL

研究用のRLフレームワークを作ってる話: DebugRLの紹介 - しゅんとくの雑記
12/14

Seitaro Shinagawa

言語生成の強化学習をやっていく実験編準備&コードの紹介

https://snowman-88888.hatenablog.com/entry/2020/12/14/212108

言語生成の強化学習をやっていく実験編強化学習なしとSelf-Criticの比較 - Seitaro Shinagawaの雑記帳
12/15

Kentaro Nakanishi

論文紹介: Human-centric Dialog Training via Offline Reinforcement Learning

https://github.com/cfiken/paper-reading/issues/116

[2020] Human-centric Dialog Training via Offline Reinforcement Learning · Issue #116 · cfiken/paper-reading · GitHub
12/16

Seitaro Shinagawa

言語生成の強化学習をやっていく実験編 REINFORCE

https://snowman-88888.hatenablog.com/entry/2020/12/16/070000

言語生成の強化学習をやっていく実験編 REINFORCE編 - Seitaro Shinagawaの雑記帳
12/17

kiyo

Stable Baselinesを使ってスーパーマリオブラザーズ1-1をクリアするまで

https://qiita.com/hrs1985/items/871ca5d037d73558bfca

Stable Baselinesを使ってスーパーマリオブラザーズ1-1をクリアするまで - Qiita
12/18

caesar_wanya

on policy と off policy の違い
12/19

ashigirl96

[EMアルゴリズム使った強化学習] MPOとV-MPOについて

https://qiita.com/ashigirl966/items/a0e9fd491c1db5f097d8

[EMアルゴリズム使った強化学習] MPOとV-MPOについて - Qiita
12/20

Yuji Kanagawa

より良い問題設計へ向けて: 何が強化学習を難しくするのかを理解しよう

https://kngwyu.github.io/rlog/ja/2020/12/22/understanding-what-makes-rl-difficult.html

より良い問題設計へ向けて：何が強化学習を難しくするのかを理解しよう | RLog
12/21

Kei Ohta

TensorFlow2.x ベース強化学習ライブラリの紹介

https://keiohta.github.io/posts/python/tf2rl/

tf2rl - Kei Ota
12/22

Takuma Wakamori

Task-Relevant Adversarial Imitation Learning を読んだ

https://twa.hatenablog.com/entry/2020/12/24/233314

Task-Relevant Adversarial Imitation Learning を読んだ - 一日坊主
12/23

GO

強化学習、はじめました

https://sports-con.xyz/lr-introduction/

強化学習、はじめました | Concast
12/24

Seitaro Shinagawa

言語生成の強化学習をやっていく実験編 Actor-Critic with Deep Q-learning

https://snowman-88888.hatenablog.com/entry/2020/12/24/235532

OpenAIのPPO言語生成論文を読む① - Seitaro Shinagawaの雑記帳
12/25

Seitaro Shinagawa

OpenAIの言語生成強化学習論文を読む

https://snowman-88888.hatenablog.com/entry/2020/12/30/085852

OpenAIのPPO言語生成論文を読む② - Seitaro Shinagawaの雑記帳