k-means

データを教師ラベルなしでクラスタ分けする手法をクラスタリングという。似ているかどうかは距離や類似度によって計算する。

  • ユークリッド距離
  • コサイン類似度

ユークリッド距離におけるクラスタリングをk-meansという。 また、クラスタの代表点をプロトタイプという。

  • データ:
  • プロトタイプ:

割当変数 は次のように定義される。

プロトタイプ に割り当てられているデータがどのくらい散らばっているかを最小化する = 歪み尺度最小化問題

これを と書くことにすると、k-meansは以下の最適化問題を解くのと同等である。