高校生のためのデータ分析入門 (6)：データ分析の大黒柱、正規分布

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

前回：高校生のためのデータ分析入門 (5)：グラフにするのは超大事！（後編） - ねこすたっと

そもそも確率分布ってなに？
- 確率変数と確率分布
- 離散型と連続型
統計学の基礎を支える正規分布
- 正規分布をσで測る
- 標準正規分布表を使ってみる
おわりに

そもそも確率分布ってなに？

確率変数と確率分布

例えば、サイコロを振るという試行でXの目が出るという事象を考えます。サイコロが公正ならば、いずれの目も出る確率は1/6のはずですね。これを数式で書くと下のようになります。

$\begin{aligned} P(X=x) = \frac{1}{6} \ \ (x=1, 2, 3, 4, 5, 6) \end{aligned}$

サイコロの目のように、取りうる値や範囲が決まっていて、その値を取る確率が決まっている変数のことを、確率変数（random variable）と言います。確率変数は、とる値とその値が起こる確率がセットになったもの、というわけです。

確率変数の取る値とその確率の分布を確率分布（probability distribution）といい、一般的には関数で表されます*1。上のサイコロの確率の式も確率分布を表している関数です。え、関数に見えない？Xが決まればP(X)が1つに決まるので、これもちゃんと関数ですよ。

離散型と連続型

次の例として、日本にいる男性をランダムに1人選んできて、その身長を高精度で測定することを考えましょう。測定された身長は、取る範囲と確率が決まっている*2ので確率変数です。

サイコロの目と異なる点は、身長は小数点以下も取りうることです。サイコロの目のように、飛び飛びの値しか取らないものを離散型確率変数（discrete random variable）と言います。これに対して、身長のように連続した値を取りうるものを連続型確率変数（continuous random variable）といいます。ちなみに、質的変数は必ず離散型変数ですが、量的変数は連続型・離散型のどちらの場合もあります。もう少し詳しく知りたい人は下の記事をどうぞ。

necostat.hatenablog.jp

仮に、選ばれた日本人男性の身長Xの確率分布が下のグラフのようになるとしましょう。身長Xがある範囲、例えば身長が160cm以上170cm未満である確率は、その範囲のグラフ下面積になります。身長Xが取りうる値全てについて確率を足し合わせると1になるので、グラフ下の面積は全体で1になっています。

では、身長Xがちょうど170cmである確率はいくらになるでしょうか？

答えば「ゼロ」です。X=170だったら幅が0なんだから、面積も0ですね。X=170.00000...のように小数点以下が無限に一致する確率は0に近づいていきます（極限を習っていたらイメージできますね）。

連続型変数の確率分布を表しているグラフは、確率密度関数（probability density function, PDF）と呼ばれます。縦軸の値そのものが確率ではないことに注意してください。

さっきのサイコロの出る目の確率分布を表す関数は、確率質量関数（probability mass function, PMF）と言います。値の範囲を体積に見立ててやれば、「密度 × 体積 = 質量」の関係になっています。

統計学の基礎を支える正規分布

正規分布（normal distribution）は、最もよく用いられる連続型変数の確率分布の1つです。山が1つで、裾が左右対称になっているのが特徴で、先程の身長の確率分布で使ったのも正規分布です。

確率密度関数は以下の式で表されます。

$\begin{aligned} f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2}\right) \end{aligned}$

この式は覚えなくてもいいですが、確率変数 $x$ の他に、μ（ミュー）とσ（シグマ）という2つの文字があることに注目してください。別の言い方をすると、この2つは正規分布を決めるパラメータ（parameter）です。

μ：分布の中心位置を決める定数。正規分布の平均値・中央値・最頻値は全てμになる。
σ：分布の広がり具合を決める定数。正規分布の標準偏差はσになる。

変数Xがμ, σで決まる正規分布に従うことを、

$\begin{aligned} X \sim Normal(\mu, \sigma^2) \end{aligned}$

あるいは単に

$\begin{aligned} X \sim N(\mu, \sigma^2) \end{aligned}$

のように書くことがあります。

正規分布をσで測る

正規分布において平均を中心とした範囲に収まる割合は、標準偏差を基準にして以下のようになっています。

全体の約68%が平均±1標準偏差（μ±σ）の範囲に収まる
全体の約95%が平均±2標準偏差（μ±2σ）の範囲に収まる
全体の約99.7%が平均±3標準偏差（μ±3σ）の範囲に収まる

μとσが分かれば、値Xが全体のどのあたりにあるかが計算できます。今ではエクセルで簡単に答えが分かりますが、昔は計算結果をまとめた表から読み取っていました。今でも試験では問題として出されるかもしれませんね。

ところで、あらゆるμとσに対応した表を用意するのは大変ですよね。そこで「標準化」という方法を使います。標準化は、正規分布を横に伸ばしたり縮めたりして裾野の広がり方を統一し、並行移動することで、μ=0, σ=1の正規分布にすることです。

μ=0, σ=1の正規分布のことを、標準正規分布（standard normal distribution）といいます。

$\begin{aligned} Z \sim N(0, 1) \end{aligned}$

上のように、標準正規分布（に従う変数）にはZをあてることが多いです。

標準正規分布表を使ってみる

さっき例に挙げた日本人男性の身長が160cm以上170cm未満である確率を、標準正規分布表を使って求めてみましょう。身長Xの分布は、

$\begin{aligned} X \sim N(170, 7^2) \end{aligned}$

とします。ここではわざと $N(170, 49)$ と書きませんでした。標準偏差 $\sigma$ で示すお作法と分散 $\sigma^2$ で示すお作法が両方混在しているからです。 $N(170, 7^2)$ と書かれていたら、普通はσ=7と解釈してもらえると思います。

次に、標準正規分布表を確認します。どこの面積を表にしているのか、次の3パターンあるので注意してくださいね。

パターン(1)は-∞からのZ=zまでの面積*3を記載してあります。標準正規分布はZ=0を中心に対称なので、Z≧0からしか表に記載されていないことが多いです。

パターン(2)はZ=0からZ=zまでの面積を記載してあります。Z≦0の面積は0.5なので、必要に応じて足します。

パターン(3)はZ=zから+∞までの面積*4を記載してあります。

今回は、産業技術総合研究所のWebページから標準正規分布表をお借りします（パターン3です）。

次は、求めたい範囲の境界であるX=160, 170が、標準正規分布Zではどこになるのかを考えます。これには「平均値からXまでの距離が標準偏差で何個分か」を考えます。

X=170はちょうど平均と同じなので、標準偏差0個分ですね。なのでZ=0に対応します。
X=160と平均の差は-10cmです。標準偏差7で割ると-1.43なので、Z=-1.43に対応します。

下のグラフで示したように、P(160≦X<170)（左図）を求めるためには、P(-1.43≦Z<0)（右図）を求めればいいということです*5。

一般的に書けば、下の式でXをZに変換できます。

$\begin{aligned} Z = \frac{X - \mu}{\sigma} \end{aligned}$

先程の表にはZ≧0の範囲しかありませんが、正規分布の対称性から、-∞から-1.43までの面積は、1.43から+∞までの面積と等しいですので、表からZ=1.43のところを読み取ります。

表には0.076359とありますので、0.5-0.076359 = 0.423641より約42%がこの範囲に含まれることがわかります。

おわりに

離散型変数の確率分布は確率質量関数で表される。
連続型変数の確率分布は確率密度関数で表される。
あとしばらくは眠たくなる統計の話が続きます。
次回：高校生のためのデータ分析入門 (7)：サンプルから推定する（前編） - ねこすたっと

ランキング参加中

統計

*1:複雑すぎて関数で表せないケースもあります。その場合は、観察された分布をもとにしたり、既知の関数で近似したりします。

*2:神様しか知りませんが。ちなみにサイコロの目の出る確率が本当に厳密に1/6なのかも私たちには分かりません。

*3:累積分布関数（cumulative distribution function, CDF）、あるいは下側確率（lower-tail probability）という

*4:上側確率（upper-tail probability）という

*5:不等号にイコールを含むかどうかは気にする必要ありません。P(X=x)=0なので。