主成分分析
多数の特徴量を持つデータについて、特徴間の相関を排除してできるだけ少ない情報の損失で少数個の無相関な合成変数に縮約して分析する方法。 潜在的な低次元構造を発見することができる。
分散が最大になる方向に射影することで次元を落とすことができる。
第一主成分
第一主成分を求めるには、以下の最適化問題を解く。
は共分散行列なので半正定値行列であり、 は凸関数である。 よって、等式制約を持つ凸関数最適化を行う。 これはラグランジュの未定乗数法によって解ける。
第m主成分の導出
固有方程式 の番目に大きい固有値に対応する固有ベクトルが第m主成分に対応する。
寄与率
着目する主成分方向が、それ単独でどの程度サンプルが持つ情報を表現できるかを示す値を寄与率という。 第主成分の寄与率は、対応する固有ベクトルの固有値を とすると以下のように計算される。
固有値はその方向にデータを射影した時の分散である。