深層学習day4 Section1:強化学習


要点まとめ

強化学習は、教師あり学習教師なし学習に並ぶ学習。 行動の結果得られる報酬を元に、行動を決定する原理を改善していく仕組み。

教師なし・あり学習では、データに含まれるパターンを見つけ出し、そのデータを予測することが目標だったが、強化学習では優れた方策を見つけることが目標になる。

エージェントが方策\Piを行ったときに、状態Sになり、エージェントが報酬Vを得る。 様々な方策\Piを行いながら得られたVを学習しながら、Vを最大化するような\Piを学習する。

数式での表現

  • 方策関数 \Pi (S) = a 状態Sを受けて行動aを行う関数。

方策ベースの強化学習手法において、ある状態でどのような行動を採るのかの確率を与える関数。

  • 価値関数 ゴールまで今の方策を続けた時の報酬の予測値が得られる。

    • 状態価値関数 V^{\pi}(S) 状態Sの価値を表す関数。
    • 行動価値関数 Q^{\pi}(s,a)
      状態Sで行動aを採ったときの価値を表す関数。最近はこちらが重要視されている。
  • Q学習 行動価値関数を、行動するごとに更新することにより学習を進める方法。

  • 関数近似法 価値観数や方策関数を関数近似する手法のこと

方策勾配法

方策をモデル化して最適化する手法。 重み\thetaの場合、下記のように方策の良さJ(\theta)によって方策を更新する方法。

 \displaystyle{
\theta^{(t+1)}=\theta^{(t)} + \epsilon \nabla J(\theta)
}

方策勾配定理。式変形は複雑らしいので、とりあえずそのようなものだという理解。

 \displaystyle{
\nabla_{\theta}J(\theta) = \mathbb{E}_{\pi_{\theta}} [(\nabla_{\theta} \log \pi_{\theta} (a|s) Q^{\pi} (s,a))]
}

実装演習

動画中にも無し。

確認テスト等考察

報酬を最大化するという考え方が強化学習。 方策勾配法によるパラメータ更新式は、勾配降下法と同じ考え方だが、方策勾配定理への式変形は難解。