統計データ

分類

データは、質的データ量的データに二分できる。 質的データはカテゴリカルなデータで、量的データは数値として表されるため定量的に大きさを測ることができるデータ。

量的データは、連続的な値を取る計量値と離散的な値を取る計数値に分類できる。

尺度

名義尺度

質的データのうち、性別や学籍番号など、値の大小に本質的な意味を持たない、ラベルとしてのデータ。

順序尺度

質的データのうち、成績などの数値の大小に意味を持つが、数値間の差や比に意味を持たないデータ。

間隔尺度

量的データのうち、気温や偏差値など数値の大小に意味を持ち、数値間の差にも意味を持つデータ。

比率尺度

量的データのうち、身長や体重などのように、数値の大小、差、比、全てに意味を持つデータ。

0(原点)が何もないことを意味していれば比率尺度、そうでなければ間隔尺度のように見分けることができる。

多次元データ

ある学生の身長、のように1つのラベルに対して1つの値だけが与えられているようなデータを1次元データという。 ある学生の身長と体重、のように1つのラベルに対して2つの値が与えられているようなデータを2次元データという。 ある学生の身長、体重、座高のように1つのラベルに対して3つの値が与えられているようなデータを3次元データという。

2次元以上のデータを1次元のデータに対して、多次元データと呼ぶ。

時系列データ

同一の対象の異なった時点での観測値からなるデータを時系列データと呼ぶ。 経済分析や気象学、天文学の現象分析に幅広く利用されている。

クロスセクション・データ

いくつかの異なった対象について調査・実験を行い、観測値を得た場合のデータをクロスセクション・データという。 また、定めた一定範囲の対象に対して時系列データを集めたものをパネル・データという。

度数分布表とヒストグラム

データをある範囲ごとに区切ったとき、その範囲に属する数値の散らばりの様子を度数分布と呼ぶ。 また、それを表にしたものを度数分布表という。 さらに、度数分布表をグラフ化したものをヒストグラムといい、その形状によってデータの分布を直観的に把握することができる。

度数分布表において区切られた各区間を階級、各区間の幅を階級幅、階級のちょうど中央の値を階級を代表する値として階級値、各階級に属するデータ数を度数という。 データの総数に対する度数の割合を相対度数といい、データ数が異なる複数のデータを比較する際に用いられる。 また、度数、相対度数それぞれの累積値を累積度数累積相対度数と呼ぶ。

ヒストグラムの注目するべき要素

  1. 中心の位置
  2. ばらつき具合
  3. 分布の形
    • データにいくつの山ができるのか
    • 山が複数できる場合は何かの性質により分離すると単峰型のデータにできることがある
    • データを性質ごとに分離することを層別という
  4. 外れ値
    • 大部分のデータからかけ離れたごく少数のデータを外れ値という
    • 転記ミスなどの人為的なミスや、重大な異常が潜むことがある

ヒストグラムの作成

  1. データ測量単位 を明確にし、 個のデータを得る
  2. データの最大値、最小値をそれぞれ とし、データの範囲 を求める
  3. を目安に、仮の階級数 を決める
  4. を目安に、階級幅 を決める
    • ただし、 は測量単位の整数倍になるように調整する
  5. 最も小さい階級の下側境界値を として、ここから ずつ加えていき、各階級の境界値を求める
    • このとき、境界値が より大きくなるまで階級を作る
  6. 階級を元に、データの度数を数え、度数分布表を作成する
  7. 度数分布表よりヒストグラムを作成する

累積度数のグラフ化

累積度数はヒストグラムと合わせて折れ線グラフで表示すると便利。 同様のグラフを相対度数、相対累積度数にして作成できる。