yui-gen-ronの日記

深層学習day3 Section6：word2vec

要点まとめ

単語を機械学習が扱えるベクトルに変換するときに、one-hot-vectorだと単語の数だけの要素数になってしまい、数万という要素数になってしまう。これを、embedding表現にすることで要素数が数百のベクトルで表現するようにする手法をword2vecという。

word2vecを用いてサイズの小さなベクトルに変換することで、事前言語を現実的な計算速度で扱えるようになった。

実装演習

なし

確認テスト等考察

単語を個別の単語として扱うone-hot-vectorではなく、単語を意味として扱うembedding表現とすることで、より小さなサイズで自然言語で表現することを可能にしている。

追加演習

ぜろつく②の３章でCBOWの実装を実施。

f:id:yui-gen-ron:20211230004557p:plain — CBOW