深層学習day2 Section4:畳み込みニューラルネットワークの概念

要点まとめ

畳み込みニューラルネットワークは次元的な繋がりのあるデータを認識するためのネットワーク。音声、音声(フーリエ変換)、CTスキャン画像、カラー画像、動画等を扱える。

畳み込み層、プーリング層、全結合層の組み合わせで構成される。

畳み込み層

入力値に対して、二次元のフィルター・バイアスを適用し、活性化関数を通したものを出力値とする処理。次元的な繋がりと保ったまま出力を作成することができる。特徴量の抽出が行われる。

畳み込み層を通すと出力のサイズは入力のサイズよりも小さくなるが、入力のサイズを拡張して端を0や近傍の値で埋めてフィルタの入力とするパディングという処理を行うと、サイズを保ったまま次の層の出力を作成できる。

ストライドとは、入力を何画素ずつずらして読み取るかの値。

全結合層

従来のニューラルネットワークと同様に、次元的な繋がりが無い層。

プーリング層

N*Nの入力画素範囲に対して、何らかの演算を施して出力とする。 Max Pooling では最大値を出力とし、 Average Pooling では平均値を出力とする。

実装演習

f:id:yui-gen-ron:20211220125813p:plain

確認テスト等考察

入力画像のサイズ、フィルターサイズ、パディング、ストライドから、畳み込み層の出力を求める問題だったが、公式を覚えても良いが、自分で都度考えた方が間違いが少なそうだ。

追加演習

E資格問題集の第13章演習問題2を実施。