要点まとめ

過学習とは、訓練用データにのみ過剰に適応してしまい、汎化性能が低下してしまった状態で、訓練誤差とテスト誤差とに乖離が生じてしまう状態。

原因は下記のような原因でネットワークの自由度が高すぎること。

正則化、即ちネットワークの自由度に制約を加えることで、過学習を抑制することができる。

重みが大きいと訓練データに適応しすぎてしまい、過学習が起きる。誤差関数にpノルムを加えることで、重みの大きさに制約を加え、過学習を抑制する。

pノルムとは

L1ノルム

スパース推定。重みを0にしやすい。

パラメータ更新の場合は微分を考える必要がある。

微分結果は符号になるので、pythonでの実装は、

f:id:yui-gen-ron:20211216121213p:plain

L2ノルム

重みは小さくはなるが、0にはなりにくい。

微分したときに都合が良いように、 $\frac{1}{2}$ を掛けるのが定番。

Pythonでの実装は、 f:id:yui-gen-ron:20211216124839p:plain

f:id:yui-gen-ron:20211215210950p:plain

実装演習

f:id:yui-gen-ron:20211216083905p:plain

Lasso, Ridge 共にメリット・デメリットがあり、Pythonの実装も覚えておく必要がある。