yui-gen-ronの日記

機械学習4:主成分分析

要点まとめ

主成分分析は、学習データ $\boldsymbol{x}_i$ を最も情報量の多い軸、即ち分散の大きい軸に射影する。その変換ベクトル $\boldsymbol{a}_j$ を求めるには、制約条件をノルムが1の条件 $\boldsymbol{a}_j^T \boldsymbol{a}_j= 1$ のもと、変換先の分散が最大となる条件を、ラグランジュの未定乗数法で解くと、 $\boldsymbol{a}_j$ は $\boldsymbol{x}_i$ の分散共分散行列 $Var(\bar{X})$ の固有ベクトルとなり、固有値 $\lambda$ が射影先の分散に対応する。

演習実施

f:id:yui-gen-ron:20211116144534p:plain

主成分分析の数式

学習データ

次数mのベクトルをn個考える

ベクトルの平均

$\boldsymbol{x}_i$ の成分毎の平均を持つベクトル

ベクトルの偏差

分散共分散行列

※共分散は偏差同士の積の平均

線形変換後のベクトル

情報量を最大とする線形変換

線形変換後の情報量を最大にしたい、すなわち線形変換後の分散を最大としたい。

線形変換後の分散は

ここで、 $\boldsymbol{s}_j$ のノルムが1となる制約条件を入れて、分散を最大となるような条件を求める。

目的関数

制約条件

ラグランジュの未定乗数法を用いて求める。

微分して0になる条件で解くと最適化問題の解となる。

この形は、 $\bar{X}$ の固有ベクトル $\boldsymbol{a}_j$ と固有値 $\lambda$ の関係となる。

次の式のように、射影先の分散を計算すると固有値 $\lambda$ になることが確認できる。

寄与率

元データの総分散 $V_{total}$ は、射影先の次元の主成分の分散との和 $\sum_{i=1}^{m} \lambda_i$ と一致する。

寄与率は第 $k$ 主成分の分散の全分散に対する割合

累積寄与率は第 $k$ 主成分までに圧縮した際の情報量の割合。