分類

分類問題ではラベルが離散値であり、たとえば気温や湿度から天気（晴れ、曇り、雨）を予測する。

事例 $(x_{i}, t_{i})$ （ $x_{i} \in R^{D}, t_{i} \in {C_{1}, C_{2}}$ ）から未知事例のラベルを当てる。

空間をクラスごとに分割した領域全体を決定領域（decision region）という。また、異なるクラスの領域を分割している線や面を決定境界（decision boundary）という。決定境界が線形であるとき、線形分類可能、そうでないとき線形分類不可能であるという。

決定的識別モデル
- $t_{i} \in {- 1, 1}$
- 決定境界 $f (x)$ を学習する
- $f (x) > 0$ であるとき、 $x$ のラベルは $C_{1}$
確率的識別モデル
- $t_{i} \in {0, 1}$
- 条件付き確率 $p (C_{1} ∣ x)$ を学習する
- $p (C_{1} ∣ x) > 0.5$ であるとき、 $x$ のラベルは $C_{1}$

ここで、最も単純な決定的識別モデル $t_{i}$ は超平面 $w^{T} x = 0$ に用いて以下のように定義できる。

$t_{i} = sgn (w^{T} x_{i}) = {1 if w^{T} x_{i} > 0 - 1 o.w. (w^{T} x_{i} \leq 0)$

回帰では $w^{T} x$ そのものが予測を与えたが、分類では識別モデルを別に定義することに注意。

最適な線形分類モデル

正しい分類と予測した分類の不一致数である分類誤差を最小化するような $w$ が最適なモデルである。したがって、以下のような誤差関数が定義できる。

$E (w) = i = 1 \sum N I (t_{i}, sgn (w^{T} x_{i}))$

ただし、 $I (a, b)$ は $a$ と $b$ が一致するなら0、不一致なら1を返す関数である。

正しい分類を与える超平面を得るためには、以下の条件を満たす $w$ を求めれば良い。

$t_{i} (w^{T} x_{i}) > 0, \forall_{i} = 1, \dots, N$

サポートベクターマシン（ハードマージン）

先ほどの条件を満たす決定境界は複数存在し得るが、識別平面とデータの距離 = マージン が最大である方がより良い適切境界である。マージンは $\frac{∣ w ^{T} x ∣}{∣ ∣ w ∣ ∣}$ で計算できるから、次の最適化問題を解くことになる。

$w max i \in {1, 2, \dots, N} min \frac{w ^{T} x _{i}}{∣ ∣ w ∣ ∣ _{2}} subject to t_{i} (w^{T} x_{i}) > 0$

ここで、超平面は定数倍に対して不変なので、 $min_{i} t_{i} (w^{T} x_{i}) = 1$ となるようにスケーリングする。すると、 $min_{i \in {1, 2, \dots, N}} \frac{∣ w ^{T} x _{i} ∣}{∣ ∣ w ∣ ∣ _{2}} = \frac{1}{∣ ∣ w ∣ ∣ _{2}}$ に変形でき、逆数なので双対問題を考えて以下のような最適化問題を考えられる。

$w min ∣ ∣ w ∣ ∣_{2}^{2} subject to t_{i} (w^{T} x_{i}) \geq 1, i = 1, \dots, N$

これをハードマージンのサポートベクターマシンという。

サポートベクターマシン（ソフトマージン）

ハードマージンのサポートベクターマシンは以下の2つの理由で扱いづらいことがある。

線形等式・不等式制約のある二次形式の最適化である凸二次計画問題（QP: quadratic programming）に持ち込めば解けるが、計算としては重い
どのような超平面でも正しい分類と予測した分類の不一致数を0にできないような線形分離不可能な場合がある

そこで、予測に失敗した際に識別平面からの距離に応じたペナルティを与えることを考える。

$w min ∣ ∣ w ∣ ∣_{2}^{2} + C i = 1 \sum N max {0, 1 - t (w^{T} x_{i})}$

これをソフトマージンのサポートベクターマシンという。

損失関数への一般化

ソフトマージンのSVMは、L2正則化項と各データに対する個別のペナルティ = 損失関数の足し合わせであると見なすことができる。回帰で扱う損失関数は二乗損失と呼ぶが、SVMにおける損失をヒンジ損失という。

$l_{hinge} (t_{i}, w^{T} x_{i}) = max {0, 1 - t_{i} (w^{T} x_{i})}$

0-1損失関数は正確に外れたケースに対してだけ一定のペナルティを与えられるが、組合せ最適化により最適化されるため簡単には解けず、マージン最大化も考慮されない。また、二乗損失は微分可能で解析解を得ることができるが、当たっているのに巨大な損失を与えてしまうので良い分類モデルであるかは疑問。ヒンジ損失関数は微分可能ではないが凸関数なので劣勾配を考えることができ、確率的劣勾配降下法により大局的最適化を行うことができる。

note.momee.mt

分類

最適な線形分類モデル

サポートベクターマシン（ハードマージン）

サポートベクターマシン（ソフトマージン）

損失関数への一般化