深層学習day4 Section1:強化学習
要点まとめ
強化学習は、教師あり学習、教師なし学習に並ぶ学習。 行動の結果得られる報酬を元に、行動を決定する原理を改善していく仕組み。
教師なし・あり学習では、データに含まれるパターンを見つけ出し、そのデータを予測することが目標だったが、強化学習では優れた方策を見つけることが目標になる。
エージェントが方策を行ったときに、状態になり、エージェントが報酬を得る。 様々な方策を行いながら得られたを学習しながら、を最大化するようなを学習する。
数式での表現
- 方策関数 状態を受けて行動を行う関数。
方策ベースの強化学習手法において、ある状態でどのような行動を採るのかの確率を与える関数。
価値関数 ゴールまで今の方策を続けた時の報酬の予測値が得られる。
- 状態価値関数 状態の価値を表す関数。
- 行動価値関数
状態で行動を採ったときの価値を表す関数。最近はこちらが重要視されている。
Q学習 行動価値関数を、行動するごとに更新することにより学習を進める方法。
方策勾配法
方策をモデル化して最適化する手法。 重みの場合、下記のように方策の良さによって方策を更新する方法。
方策勾配定理。式変形は複雑らしいので、とりあえずそのようなものだという理解。
実装演習
動画中にも無し。
確認テスト等考察
報酬を最大化するという考え方が強化学習。 方策勾配法によるパラメータ更新式は、勾配降下法と同じ考え方だが、方策勾配定理への式変形は難解。