高校生のためのデータ分析入門 (3)：変数の分布を数値で示す

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

おさらい：分布を要約する
質的変数の分布を示す
- 比・割合・率
量的変数の分布を要約する
おわりに

おさらい：分布を要約する

収集されたデータにおいて「変数がどのような値を取っているか」を、変数の分布と呼びます。数値で分布を要約したり、グラフで可視化することで分布の様子を示すことができます。

ここでは数値を使って分布を要約する方法を、変数のタイプ別に見ていきましょう。

質的変数の分布を示す

同じクラスの人の血液型をまとめることを考えてみましょう。まずは、「Ａ型が⚪︎人」というようにそれぞれの血液型の人数を集計しますよね。このとき、値として変数に含まれる各血液型を水準（level）、それぞれの血液型の人数を度数（frequency）と言います。

当たり前ですが、全体の人数が増えればA型の度数も増えるので、その度数が大きいのか小さいのか分かりません。そこで、度数を全体数で割った割合（proportion）も示すと分かりやすいですね。表のまとめ方は下を参考にしてください。

比・割合・率

ここで用語を整理しましょう。比（ratio）とは、数を数で割ったものです。これに対し、割合（proportion）では、割られる数（=分子）が割る数（=分母）に含まれていなくてはいけません。

例えば、男子の割合と言ったら、分子は男子の人数、分母は男女全体の人数なので、分子は分母の一部ですよね。これに対して男女比と言ったら、男子の人数を女子の人数で割ったもの*1なので、分子は分母に含まれていません。

上記の違いがわかっていれば、比は0以上、割合は0〜1の範囲の値になることが分かりますよね。

割合に代わって率という語が使われることが多いですが、区別して使う場合があるので注意しましょう。率（rate）は、ある一定期間において観察される数量を表すときに使います。数量を、時間に関係する数字で割るので、ある種の「速さ」を表していることになるのが分かるでしょうか。

例えば、「忘れ物を3回しました」と言っても、どれくらいの期間の話なのかによって意味が変わりますよね。3年間で3回なら0.083回/月ですが、3日で3回なら30回/月（多い！）です。観察期間を揃えることで比較できるというわけです。

野球の話で言えば、防御率はピッチャーが1試合あたりに取られる点数*2なので「率」で正解ですが、打率は打数のうちヒットを打った「割合」なので「率」ではありません。

量的変数の分布を要約する

中心位置

量的変数、例えば数学の点数の分布はどのように要約したらいいでしょうか。一番気になるのは平均点ですね。平均は分布の中心位置がどこにあるかを示す要約値の1つです。

中心位置を示す指標には次のようなものがあります。

平均（mean）：
全員の点数を足して、人数で割ったもの
中央値（median）：
真ん中の人の点数。例えば、5人いたら3番目の人の点数が中央値。
最頻値（mode）：
一番頻度が多い点数。例えば、80点が5人、85点が5人、90点が10人いたら、最頻値は90点。

分布の広がり

平均点の次に気になるのは偏差値でしょうか。平均点が同じでも、点数のバラツキ具合によって偏差値は変わります（バラツキの大きいテストだと、点数が悪くても意外に偏差値は低くなかったりする）。偏差値を計算するのに用いられる、分布の広がり具合を示す要約値は標準偏差です。バラツキの指標は次のようなものがあります。

標準偏差（standard deviation, SD）：
それぞれの人の点数と平均点の距離を全て使って計算します。平均と合わせて使います。
四分位範囲（interquartile range, IQR）：
「しぶんいはんい」と読みます。下位25%の人の点数と上位25%の人の点数を使って表します。これらの境界値は中央値と合わせて、全体を4等分する数値なので四分位数と呼びます。
範囲（range）：
最低点と最高点で表します。