要点まとめ

強化学習は、教師あり学習、教師なし学習に並ぶ学習。行動の結果得られる報酬を元に、行動を決定する原理を改善していく仕組み。

教師なし・あり学習では、データに含まれるパターンを見つけ出し、そのデータを予測することが目標だったが、強化学習では優れた方策を見つけることが目標になる。

エージェントが方策 $\Pi$ を行ったときに、状態 $S$ になり、エージェントが報酬 $V$ を得る。様々な方策 $\Pi$ を行いながら得られた $V$ を学習しながら、 $V$ を最大化するような $\Pi$ を学習する。

方策ベースの強化学習手法において、ある状態でどのような行動を採るのかの確率を与える関数。

価値関数ゴールまで今の方策を続けた時の報酬の予測値が得られる。
- 状態価値関数 $V^{\pi}(S)$ 状態 $S$ の価値を表す関数。
- 行動価値関数 $Q^{\pi}(s,a)$
  状態 $S$ で行動 $a$ を採ったときの価値を表す関数。最近はこちらが重要視されている。
Q学習行動価値関数を、行動するごとに更新することにより学習を進める方法。
関数近似法価値観数や方策関数を関数近似する手法のこと