前処理

機械学習で扱うデータを前処理する方法にはいくつか種類がある。

欠損値

  • 欠損値を含むサンプルを除去する
  • 欠損値はその特徴の平均値や中間値で補完する

外れ値

  • 全体を俯瞰し、極端な外れ値を含むサンプルを除去する
    • 測定エラーや入力ミス、例外の可能性があるため

スケーリング

  • 各特徴が平均0、標準偏差1になるようにスケーリングする
  • 最大値が1、最小値が0になるようにスケーリングする