機械学習4:主成分分析
要点まとめ
主成分分析は、学習データを最も情報量の多い軸、即ち分散の大きい軸に射影する。その変換ベクトルを求めるには、制約条件をノルムが1の条件のもと、変換先の分散が最大となる条件を、ラグランジュの未定乗数法で解くと、はの分散共分散行列の固有ベクトルとなり、固有値が射影先の分散に対応する。
演習実施
主成分分析の数式
学習データ
次数mのベクトル をn個考える
ベクトルの平均
の成分毎の平均を持つベクトル
ベクトルの偏差
分散共分散行列
※共分散は 偏差同士の積 の平均
線形変換後のベクトル
情報量を最大とする線形変換
線形変換後の情報量を最大にしたい、すなわち線形変換後の分散を最大としたい。
線形変換後の分散は
ここで、 のノルムが1となる制約条件を入れて、分散を最大となるような条件を求める。
目的関数
制約条件
ラグランジュの未定乗数法を用いて求める。
次の式のように、射影先の分散を計算すると固有値になることが確認できる。
寄与率
元データの総分散 は、射影先の次元の主成分の分散との和と一致する。
寄与率は第主成分の分散の全分散に対する割合
累積寄与率は第主成分までに圧縮した際の情報量の割合。