ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

高校生のためのデータ分析入門 (3):変数の分布を数値で示す

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

前回:高校生のためのデータ分析入門 (2):変数ってなに? - ねこすたっと

おさらい:分布を要約する

収集されたデータにおいて「変数がどのような値を取っているか」を、変数の分布と呼びます。 数値で分布を要約したり、グラフで可視化することで分布の様子を示すことができます。

ここでは数値を使って分布を要約する方法を、変数のタイプ別に見ていきましょう。

質的変数の分布を示す

同じクラスの人の血液型をまとめることを考えてみましょう。 まずは、「A型が⚪︎人」というようにそれぞれの血液型の人数を集計しますよね。 このとき、値として変数に含まれる各血液型を水準(level)、それぞれの血液型の人数を度数(frequency)と言います。

当たり前ですが、全体の人数が増えればA型の度数も増えるので、その度数が大きいのか小さいのか分かりません。そこで、度数を全体数で割った割合(proportion)も示すと分かりやすいですね。表のまとめ方は下を参考にしてください。

比・割合・率

ここで用語を整理しましょう。比(ratio)とは、数を数で割ったものです。 これに対し、割合(proportion)では、割られる数(=分子)が割る数(=分母)に含まれていなくてはいけません

例えば、男子の割合と言ったら、分子は男子の人数、分母は男女全体の人数なので、分子は分母の一部ですよね。これに対して男女比と言ったら、男子の人数を女子の人数で割ったもの*1なので、分子は分母に含まれていません。

上記の違いがわかっていれば、比は0以上、割合は0〜1の範囲の値になることが分かりますよね。

割合に代わって率という語が使われることが多いですが、区別して使う場合があるので注意しましょう。率(rate)は、ある一定期間において観察される数量を表すときに使います。数量を、時間に関係する数字で割るので、ある種の「速さ」を表していることになるのが分かるでしょうか。

例えば、「忘れ物を3回しました」と言っても、どれくらいの期間の話なのかによって意味が変わりますよね。3年間で3回なら0.083回/月ですが、3日で3回なら30回/月(多い!)です。観察期間を揃えることで比較できるというわけです。

野球の話で言えば、防御率はピッチャーが1試合あたりに取られる点数*2なので「率」で正解ですが、打率は打数のうちヒットを打った「割合」なので「率」ではありません。

量的変数の分布を要約する

中心位置

量的変数、例えば数学の点数の分布はどのように要約したらいいでしょうか。 一番気になるのは平均点ですね。平均は分布の中心位置がどこにあるかを示す要約値の1つです。

中心位置を示す指標には次のようなものがあります。

  • 平均(mean)
    全員の点数を足して、人数で割ったもの
  • 中央値(median)
    真ん中の人の点数。例えば、5人いたら3番目の人の点数が中央値。
  • 最頻値(mode)
    一番頻度が多い点数。例えば、80点が5人、85点が5人、90点が10人いたら、最頻値は90点。

分布の広がり

平均点の次に気になるのは偏差値でしょうか。平均点が同じでも、点数のバラツキ具合によって偏差値は変わります(バラツキの大きいテストだと、点数が悪くても意外に偏差値は低くなかったりする)。 偏差値を計算するのに用いられる、分布の広がり具合を示す要約値は標準偏差です。バラツキの指標は次のようなものがあります。

  • 標準偏差(standard deviation, SD)
    それぞれの人の点数と平均点の距離を全て使って計算します。平均と合わせて使います。
  • 四分位範囲(interquartile range, IQR)
    「しぶんいはんい」と読みます。下位25%の人の点数と上位25%の人の点数を使って表します。これらの境界値は中央値と合わせて、全体を4等分する数値なので四分位数と呼びます。
  • 範囲(range)
    最低点と最高点で表します。

実際に計算してみる

10人の点数がが次のような結果だったとしましょう。

50, 55, 58, 60, 62, 70, 72, 82, 100, 100

まず、平均mを計算すると、

 
\begin{aligned}
m &= \frac{50 + 55 + ... + 100}{10} \\
&= 70.9
\end{aligned}

です。

標準偏差sは、各生徒の点数と平均の差の2乗を足し合わせて、人数-1で割ったものの平方根です。ちなみに、平方根を取る前、つまり s^2分散(variance)と呼びます。

 
\begin{aligned}
s &= \sqrt{\frac{(50-70.9)^2 + (55-70.9)^2 + ... + (100-70.9)^2 }{10-1}} \\
&= 17.9
\end{aligned}
  • なぜ2乗したの?
    → そのまま合計するとプラスとマイナスが打ち消してゼロになるから
  • なぜ平方根を取ったの?
    → 元の測定値と単位(次元)を揃えるため
  • なぜ人数で割るのでなく、人数-1で割ったの?
    → 母集団の期待値としてはn-1で割った方が適切だから*3
  • どんなときに役に立つの?
    →標準偏差は正規分布という特別整った分布を要約するときに役に立ちます(また別の機会に説明します)

中央値Mは全体を半分ずつに分ける値なので、5位と6位の間の数値になります。この2人の点数の平均値を中央値とします。

 
\begin{aligned}
M &= \frac{62 + 70}{2} \\
&= 66
\end{aligned}

四分位範囲は、下位1/4と上位1/4の値で表すので、10人の場合は3位と8位(それぞれ下半分・上半分の5人の真ん中)の点数から[58, 82] となります*4

最後に、2人いる100点が最頻値となります。人数が少ないと感覚からズレやすくなる指標なので注意しましょう。

おわりに

*1:逆でもOK

*2:正確には自責点

*3:難しい話なので興味ある人はこちら→分散はnで割るか n-1で割るか

*4:分位数の決め方は色々あります。知りたい人はこちら→Quantile - Wikipedia(英語)