ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

変数の型と測定尺度の分類

データの要約や可視化を説明しようとすると、まずは変数の型を分類しましょうという話になります。 変数の分類に関して扱っている記事は多いですが、これまでPubmed検索可能な論文まで辿ったことがなかったので勉強してみました。

データ型の分類

参考文献(Mishra et al)では「データ(data)とは測定された事実の集合体*1」であり、状況によって変化しない定数(constant)と変数(variable)に分けられると紹介されています。定数について要約したり分布を可視化することはないので、私たちの興味の対象は変数だけですね。 なのでデータと変数は同じような使われ方をしているんしょう、きっと。この記事では「変数」に統一します。

変数は大きく、「質的」か「量的」かに分けられます。

質的変数(qualitative variable)は特性に関する情報を表したデータです。カテゴリー変数(categorical variable)とも呼ばれます。

量的変数(quantitative variable)は数えたり測ったりして得られたデータです。数値データ(numerical variable)とも呼ばれます。

質的変数の分類

質的変数は自然な順序がある順序変数(ordinal variable)と、順序を恣意的にしか決めることができない名義変数(nominal variable)に分けられます。カテゴリーが2つしかない変数は2値変数(dichotomous variable)と呼ばれ、名義変数の特殊系です*2。 これらの変数の特徴は後ほど説明します。

量的変数の分類

量的変数の分類に関する説明は、参考にするものによって2パターンあります(今回調べてみようと思った最大の理由です)。

1つ目は、数値の連続性に基づいた分類です。分数や小数には分割できず、整数値しか取ることができない離散変数(discrete variable)と、分数や小数へ分割できる連続変数(continuous variable)です*3

ちなみに、離散変数であっても数が大きい場合は連続変数として扱って差し支えありません。例えば神戸市の人口は厳密には離散変数ですが、連続変数と同じ方法で要約する方が自然です。参考文献(Mishra et al)によれば、10を超えるなら連続変数として扱ってよいとのことでした。

2つ目は測定尺度の特性に基づいた分け方です。次の項で説明します。

測定の尺度

測定の尺度は次の特性をもとに分類されます。

  • 同一性(equality)
  • 順序(rank-order)
  • 等間隔性(equality of interval)
  • 比例性(equality of ratio)

尺度は下位から

  • 名義尺度(nominal scale)
  • 順序尺度(ordinal scale)
  • 間隔尺度(interval scale)
  • 比例尺度(ratio scale)

に分類されます。上位尺度は下位尺度の特性を持っているので、例えば比例尺度を順序尺度のように要約することは可能です。

名義尺度

データを特性に基づいて順序のないカテゴリーに分類する尺度です。 例として、血液型や性別、個人識別IDなどが該当します。

この尺度で定義された変数は同じかどうか(同一性, equality)が判断できるだけです(血液型が同じ・違うは言えるが、B型>A型といった順序はつけられない)。

名義尺度のデータは、観察数(各カテゴリーに何人属しているか)や最頻値(最も観察数の多いカテゴリーはどれか)で要約されます。

順序尺度

データをカテゴリーに分類する尺度ですが、名義尺度と違ってカテゴリー間の大小関係(rank-order)を判断できます。 例として、最終学歴やLikertスケールなどが挙げられます。

この尺度では大小関係は判断できますが、値を使って足し算・引き算はできません。カテゴリーの間隔が一定であるとは考えられないからです(差に意味がない)。 例えばガンの病期(I, II, III, IV)は、カテゴリー名として数字が割り振られていますが、ステージIとIIの差がステージIIIとIVの差と同じとは言えないので順序変数です。

順序尺度のデータは中央値(全体の中で順序がちょうど真ん中のデータが属するカテゴリー)・パーセンタイル値で要約されます。

間隔尺度

名義尺度・順序尺度は質的データの尺度でしたが、ここから先は量的データの尺度になります。 順序尺度と違い、間隔尺度のデータになると等間隔性(equality of interval)が備わります。つまり、「単位(=基準となる間隔距離)」が意味を持つようになるので、足し算・引き算ができます(実際には意味のない計算になる場合もあるでしょうが)。このため、平均や標準偏差として要約することができます。

例としては、摂氏温度や西暦が挙げられます。先程の病期の例と違って、「20℃上昇」や「100年後」といった差が意味を持っていることがわかると思います。

比例尺度

比例尺度も間隔尺度と同じく量的データの尺度ですが、比例尺度では「0が絶対的な意味を持つ」という点が異なります。 比例尺度における0は「本当に何もない」を意味していますし、「0よりも小さな値がない」ということです。 例えば、体重は比例尺度データの代表例ですが、体重0kgは「そこに何もない」ということを意味していて、それ以下にはなりません。

これに対し、間隔尺度における0は単なる基準点でしかありません。間隔尺度の例として摂氏温度や西暦を挙げましたが、氷点下も紀元前も存在しています(では絶対温度はどうなのか...。絶対零度よりも低い温度はないので、比例尺度と言えそうです)。

「比例尺度はX倍が意味をもつが、間隔尺度ではX倍に意味がない」という説明をよく見ます。「体重80kgは体重40kgよりも2倍重い」とは言えますが、「西暦2000年は西暦1000年よりも2倍長い・歴史がある」などとは言えないということです。

注意点としては、時間に関連したデータが常に間隔尺度になるわけではないということです。期間(=2時点の間隔の長さ)は0であれば何もないことを意味しますし、「2週間は1週間の2倍の長さである」と言うことができます。

比例尺度は変動係数(=標準偏差/平均)による要約が意味を持ちますが、間隔尺度以下の要約方法を使うことの方が圧倒的に多いです。

おわりに

  • 量的変数の2パターンの分類は、一方が他方を包含したものではないように思うので、上位・下位を考えるのはやめました。
  • 初めて絶対零度に出会ったのは聖闘士星矢でした。

参考資料

  • ニューサウスウェールズ大学(UNSW)のサイトにある解説記事です。下に挙げたStevens先生の文献が引用されていました。

studyonline.unsw.edu.au

  • S.S.Stevens. On the Theory of Scales of Measurement. Science 103,677-680(1946).

  • Mishra P, Pandey CM, Singh U, Gupta A. Scales of measurement and presentation of statistical data. Ann Card Anaesth. 2018:419-422.

*1:ブログ著者訳

*2:2つのカテゴリーにも順序がある!とも言えますが、要約方法は名義変数の説明に合致しているので

*3:Statistical Methods in Medical Researchでもこの分類