回帰における誤差

手持ちのN個のサンプル について、 を与えられたら を返すハッシュ関数は常に二乗誤差が0だが、サンプル以外には対応できないので意味がない。 このようなサンプルに対して過学習したモデルは使えないので、訓練用とテスト用のサンプルに分けて訓練を行う。

訓練誤差

  • モデル を明らかにしたい
  • 訓練事例 を使って学習させる
  • 学習した回帰モデル
  • 訓練事例で得た回帰モデルの、訓練事例における誤答率を訓練誤差と呼ぶ

汎化誤差

  • データ生成分布
    • 知ることができない
  • 真のモデル
    • こちらも知ることができない
  • 学習した回帰モデル

汎化誤差を使えば回帰モデルの性能を調べることができるが、実際にはこれを計算することはできない。 ただし、汎化モデルの上界を証明するような研究は存在し、学習機の性能保証として使える。

テスト誤差

  • モデル を明らかにしたい
  • テスト事例
  • 学習した回帰モデル
  • 訓練事例で学習した回帰モデルの、テスト事例における誤答率をテスト誤差と呼ぶ

汎化誤差の有限サンプル近似がテスト誤差となる。 これは、標本平均が母平均の有限サンプルにおける近似だからで、サンプル数無限大における標本平均は母平均に一致する。