深層学習day3 Section7:Attention Mechanism

要点まとめ

seq2seq では最終的なthroughout vectorが固定長であるため、長い文章になると意味を正しく表現できない問題がある。文章の長さに応じて出力するベクトル長が変化する仕組みが必要となる。 そのため Attention Mechanismが発明され、どの単語が重要なのかを判断して中間層を更新する仕組みがある。このことで、固定長ベクトルでもより適切な表現を中間層として保持することが可能になっている。

実装演習

実装演習なし

確認テスト等考察

RNN:Recurrent Neural Networkは時系列データを扱うために、時間軸で情報を関連付ける仕組みを持ったNN。

word2vec:単語をone-hot-vectorではなく、embedded表現とすることで、より小さなサイズで自然言語を扱えるようにする表現方法。

seq2seq:embedded表現のベクトルを入力として内部の隠れ層を更新するEncoderと、隠れ層から一文を作成するDecoderとからなる、自然言語用のネットワーク。

Attention:seq2seqで隠れ層の更新を行う際に、各単語の重要度・関連度により更新量に重みを付けることで、固定長ベクトルでもより適切な内部表現を作成する仕組み。

追加演習

ぜろつく②の8章 Attentionの実装を実施。 Attentionを適用することで、2回のEPOCHで十分なAccuracyを得ることができる。 f:id:yui-gen-ron:20211230025536p:plain