データの属性
データはいくつかの属性に分類することができる。 機械学種で扱う際には順序属性やカテゴリカル属性も数値属性に変換する。
数値属性
スカラやベクトルで表現できる属性。 年齢や実行時間。
順序属性
順序関係を持つ属性。 成績評価(A+ > A > B > C > D)など。
順序を保存したスカラ値に変換する。
カテゴリカル属性
順序関係を持たない属性。 血液型など。
1-of-k変換(one-hot encoding)を行う。
たとえば血液型なら、A型は(1, 0, 0, 0)
、B型は(0, 1, 0, 0)
、O型は(0, 0, 1, 0)
、AB型は(0, 0, 0, 1)
。
すなわち、属性値がN種類あるとき、 となる。