画像認識

$K \times K$ 画素画像は、 $K^{2}$ 次元実数ベクトルと見なすことができる
3次元実数ベクトル空間 $V$ について、 $V$ を張る基底は無限個存在するが、3本の基本ベクトルが最もシンプルな基底
- $R^{3} = ⟨ e_{1}, e_{2}, e_{3} ⟩$
$G$ が1次独立な画像ベクトル $v_{1}, v_{2}, v_{3}$ で生成されるとき、 $v_{1}, v_{2}, v_{3}$ が基底ベクトルである
- 3つのベクトルが同一平面上に存在しない

正射影

任意の $v \in V$ は、 $v = u + w (u \in U, w \in U^{⊥})$ と一意に表される。このとき、 $v$ に対して $u$ を対応させる写像を $V$ から $U$ への正射影であるといい、 $p r_{u}$ と書く。

また、 $V$ を計量ベクトル空間、 $U$ を $V$ の部分空間とする。 $u_{1}, u_{2}, \dots, u_{k}$ を $U$ の正規直交基底とすると、正射影は以下のように書ける。

$p r_{u} = (v, u_{1}) u_{1} + (v, u_{2}) u_{2} + \dots + (v, u_{k}) u_{k}$

画像ベクトル空間における正射影は、特徴抽出として極めて重要。たとえば、 $v$ の1次元部分空間 $⟨ e_{1} ⟩$ への正射影は、ベクトル $v$ から画像成分 $e_{1}$ のみを抽出することになる。また、係数 $a_{1}$ がその成分の強さを意味する。

射影行列

射影行列 $P$ （ $P \in R^{d \times d}$ ）は、ベクトル $x$ を $n$ 次元部分空間 $U = ⟨ e_{1}, e_{2}, \dots, e_{n} ⟩$ への正射影ベクトル $x^{'}$ に写像する。

$x^{'} = Px = i = 1 \sum n e_{i} e_{i}^{T}$

部分空間 $U$ への射影行列を $P$ とするとき、 $U$ の直交補空間 $U^{⊥}$ への正射影を表す射影行列 $Q$ は以下のようになる。ただし、行列 $I$ は、射影行列 $P$ と同じサイズの単位行列。

$Q x^{'} = I - P = Q x$

画像パターン分布の局在性

ある同種の物体の画像パターンは相関を持つので、他次元ベクトル空間の部分空間内に集中している。このような部分空間を、その物体の固有空間と呼ぶ。

重みが大きい基底ベクトルを主成分ベクトルと呼ぶ。

固有空間の求め方

主成分分析（PCA）
- 多変量解析
- カール・ピアソンが1901年に提案
KL変換
- 信号処理
- Karhunent(1947)、Loeve(1977)

どちらも同値の操作であるが、異なる分野で独立に開発された。

主成分

以下のいずれかの基準で主成分を決める。

平均二乗誤差最小基準
分散最大基準

平均二乗誤差最小基準

$n$ 個の画像ベクトルが与えられている。そのうち、ある画像 $i$ のベクトルが $x_{i}$ とする。また、ベクトル $u_{1}$ への正射影ベクトルを $\tilde{x}_{i}$ とする。このとき、平均二乗誤差は以下の $ϵ^{2} (u_{1})$ によって与えられる。

$ϵ^{2} (u_{1}) = \frac{1}{n} i = 1 \sum n ∣ ∣ x_{i} - \tilde{x}_{i} ∣ ∣^{2}$

また、第一主成分のベクトルを求めることは、すなわち最適化問題 $arg min_{u_{1}} ϵ^{2} (u_{1})$ を解くことである。

さらに、平均二乗誤差最小基準は射影最大基準に同値変形することができる。これは、二乗誤差 $∣ ∣ x_{i} - x_{i} ∣ ∣^{2}$ と射影長の二乗 $δ^{2} (u_{1}) = ∣ ∣ \tilde{x}_{i} ∣ ∣^{2}$ の和は三平方の定理から常に定数（ $∣ ∣ x_{i} ∣ ∣^{2}$ ）であり、平均二乗誤差が最小を取るとき、常に射影は最大になるからである。

第一主成分のベクトルを求めることは、すなわち最適化問題 $arg max_{u_{1}} δ^{2} (u_{1})$ を解くことでもある。

平均二乗誤差最小基準では固有値分解により主成分を計算することができる。

主成分を求めたいデータセットから、自己相関行列 $R = \frac{1}{n} \sum_{i = 1}^{n} x_{i} x_{i}^{T}$ を求める
自己相関行列は、画像ベクトルを列として並べた行列 $A = [x_{1} x_{2} \dots x_{n}]$ を用いて、 $R = \frac{1}{n} A A^{T}$ と書ける
自己相関行列 $R$ の固有値と固有ベクトルを求める
$k$ 番目に大きい固有値 $λ_{k}$ に対応する固有ベクトル $u_{k}$ を第 $k$ 主成分ベクトルとする
$k$ 番目までのベクトルをとった場合の平均二乗誤差は、 $\frac{1}{n} \sum_{i = 1}^{n} X_{i}^{T} X_{i} - \sum_{i = 1}^{k} λ_{i}$ で計算できる
主成分ベクトルをいくつ求めるかは、固有値から求められる累積寄与率（集中度）によって決定する。寄与率 $c$ は以下で与えられる

$c = \frac{\sum _{i = 1}^{k} λ _{i}}{\sum _{i = 1}^{N} λ _{i}}$

分散最大基準

主成分を求めたいデータセットから、共分散行列 $C$ を求める
$C$ の固有値と固有ベクトルを求める
$k$ 番目に大きい固有値 $λ_{k}$ に対応する固有ベクトル $u_{k}$ を第 $k$ 主成分ベクトルとする
ここで、固有値 $λ_{k}$ がその方向の分散に相当する
主成分ベクトルをいくつ求めるかは、固有値から求められる累積寄与率（集中度）により決定する

共分散行列は、平均ベクトル $m$ を求め、 $C = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - m) (x_{i} - m)^{T}$ で求められる。

Sparse PCA

ALOI: Amsterdam Library of Object Imagesに対する主成分分析の結果を観察すると、第一主成分に正規分布が、第二主成分に正規分布の一次微分が、第三主成分に正規分布の二次微分が現れる。 1つ目は平滑化フィルタに、2つ目はエッジ抽出フィルタに、3つ目は輪郭抽出フィルタ（Laplacian Gaussian）に対応し、脳内にもこのような応答をする細胞が存在する。

基底数を制限すると局所性が現れるため、固有空間を得ることができる。固有空間への正射影は、次のようなメリットがある。

情報圧縮
- 少数の基底ベクトルの1次結合で表現できる
特徴抽出
- 顔の固有空間への正射影は人間成分の抽出になる
画像パターンの可視化
- 動画像パターンセットは高ベクトル空間において多様体を形成する
画像復元
- もし一部が欠落した画像でも、事前に欠落していない画像からなる特徴ベクトルに射影すれば、部分空間上の画像の中で最も近い画像を得ることができる

note.momee.mt