回帰における誤差
手持ちのN個のサンプル について、 を与えられたら を返すハッシュ関数は常に二乗誤差が0だが、サンプル以外には対応できないので意味がない。 このようなサンプルに対して過学習したモデルは使えないので、訓練用とテスト用のサンプルに分けて訓練を行う。
訓練誤差
- モデル を明らかにしたい
- 訓練事例 を使って学習させる
- 学習した回帰モデル
- 訓練事例で得た回帰モデルの、訓練事例における誤答率を訓練誤差と呼ぶ
汎化誤差
- データ生成分布
- 知ることができない
- 真のモデル
- こちらも知ることができない
- 学習した回帰モデル
汎化誤差を使えば回帰モデルの性能を調べることができるが、実際にはこれを計算することはできない。 ただし、汎化モデルの上界を証明するような研究は存在し、学習機の性能保証として使える。
テスト誤差
- モデル を明らかにしたい
- テスト事例
- 学習した回帰モデル
- 訓練事例で学習した回帰モデルの、テスト事例における誤答率をテスト誤差と呼ぶ
汎化誤差の有限サンプル近似がテスト誤差となる。 これは、標本平均が母平均の有限サンプルにおける近似だからで、サンプル数無限大における標本平均は母平均に一致する。