k-means

データを教師ラベルなしでクラスタ分けする手法をクラスタリングという。似ているかどうかは距離や類似度によって計算する。

ユークリッド距離におけるクラスタリングをk-meansという。また、クラスタの代表点をプロトタイプという。

割当変数 $r_{ik}$ は次のように定義される。

$r_{ik} = {1 if x_{i} is assigned to μ_{k} 0 o.w.$

プロトタイプ $μ_{k}$ に割り当てられているデータがどのくらい散らばっているかを最小化する = 歪み尺度最小化問題。

$J (μ_{1}, \dots, μ_{K}, r_{11}, \dots, r_{nk}) = k = 1 \sum K n = 1 \sum N r_{nk} ∣ ∣ x_{n} - μ_{k} ∣ ∣_{2}^{2}$

これを $J (μ_{k}, r_{nk})$ と書くことにすると、k-meansは以下の最適化問題を解くのと同等である。

$μ_{k}, r_{nk} arg min J (μ_{k}, r_{nk})$

note.momee.mt