要点まとめ

学習率の最適化手法は様々あるが、試験の範囲では以下のものがある。

効果的だが、局所最適解に陥りやすい。

Momentum=運動量、勢い。

前回の重みの減算量に係数 $\mu$ を掛けて加算することで、局所最適解を抜け出して大域最適解にたどり着く。振動的になりやすい。

Adaptive Gradient = 適応的な勾配

誤差の2乗を積算していき、徐々に学習されにくくする。

メリット：勾配が緩やかな斜面に対して最適値に近づける。

課題：学習率が徐々に小さくなるので、鞍点問題を引き起こすことがあった。

AdaGradに対して、係数 $\alpha$ を用いて $h_t$ の更新に調整を行う。

実装演習

SGDでは学習が進まなかったが、Momentum、AdaGrad、RMSProp と徐々に学習がスムーズに進むことが確認できた。

特徴を順に追っていくと学習率の更新を工夫することで最適な学習を行おうとしてきた歴史が感じられる。

ぜろつく①の⑥小でのSGDから始まる実装を行って確認した。