ものづくりに関わる方の基本となるデータの考え方や種類についてまとめました。
質的データ(qualitative data)と量的データ(quantitative data)
普段、生活している中で様々な数字や数値を目にします。
この数字や数値を「質的データ」、「量的データ」に分けて考える事ができます。
質的データは、例えばクレジットカード番号や電話番号などを始めとした、数字の大小や順序などの概念を持たないデータ群の事です。四則演算ができない、もしくは四則演算を実施することに意味のないデータとも言えます。
一方量的データとは、年齢や物の長さ、重さなどの数値としての大小や順序が想定でき、場合によっては計算が可能なデータ群の事です。これらは質的データとは異なり四則演算ができる情報とも言えます。
名義尺度(nominal scale)と順序尺度(ordinal scale)
質的データは、さらに名義尺度と順序尺度に分類できます。
名義尺度とは、観察される変数と数値のあいだに意味を持たせずに対応させる分類基準の事です。
例えば、性別のデータを取る際に男性を1、女性を2のように数値に対応させて入力する場合、これらの数値は重複さえなければ,男性を2、女性を1に割当ててもよいのです。
つまり、ここでの数値は分類としての記号の意味をもつだけで、2は1より大きい、という数値としての意味は持たない事になります。これらの数値を加えたり減じたりという計算も当然できません。
一方、順序尺度とは、観察される変数と数値を意味づけして対応させた分類基準の事です。
たとえば、歌舞伎を見た感想として、1:『おもしろかった』、2:『普通』、3:『つまらなかった』のように数値の並びに意味を持たしたものの事です。
しかし,それを決定できる客観的な根拠がない場合には,これらの数値は大小関係にのみ意味があります。
間隔尺度(interval scale)と比例尺度(ratio scale)
量的データは、間隔尺度と比例尺度に分けられます。
間隔尺度とは、原点と単位が任意に設定されているデータの事です。
たとえば温度の目盛りは、日本では“摂氏”を使い、米国や英国で“華氏”を使っているように、計るときの基準次第で温度を表す数値が変わってきます。
間隔尺度は、数値の差のみに意味を持っています。例えば,温度が摂氏10度から摂氏20度になったときに,温度が10度(20度-10度)上昇したとは言うが、2倍(20度÷10度)の温度上昇があったとは言わない。これは、摂氏0度は水が凍る温度であるという意味であり、摂氏0度が「温度がない状態」を意味しないことに起因しています。
このように間隔尺度は、個々のデータの間の等間隔が保証されているので、足し算や引き算により統計量を算出することが可能となるデータの事です。
比例尺度は、等間隔に加えて、ゼロを基点とすることができる尺度の事です。
身長、時間、速度、売上金額などが考えられます。たとえば、重さが5グラムと10グラムであれば、後者が2倍重いという表現をします。これは、重さ0グラムということが「重みがない」ことを意味し、それが数字の0と本質的に同じ意味をもっているからです。
この尺度は比率も考えることができ、四則演算が全て可能なデータと言えます。
ここで解説した4種類のデータ水準を比べると、名義尺度データが最も水準が低く,順序尺度データ、間隔尺度データ、比例尺度データの順に水準が高くなります。
ある水準のデータは,それより低い水準のデータが持つ性質を全て持つことができます。例えば,間隔尺度データに適用できる全ての統計手法は,比例尺度データにも適用できますが,逆は成り立ちません。
「順序尺度以上」という場合には,データの水準が順序尺度よりも高い,間隔尺度および比例尺度を含んでいるとも言えます。
koushiru事務局
最新記事 by koushiru事務局 (全て見る)
- 設備の生産性とは|生産性の測定と活用のポイント(その2) - 2020年4月3日
- 生産性の設定とは|生産性の測定と活用のポイント(その1) - 2020年3月23日
- IE適用技術から見た生産性の3側面 - 2020年3月13日