高校生のためのデータ分析入門 (8)：サンプルから推定する（中編）

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

前回のおさらい
点推定：最もありそうな1点を推定する
推定の誤差はどれくらい？
区間推定
おわりに

前回のおさらい

前編では、サンプルから母集団の特徴を推定すること、そして推定には誤差が付きものであることを説明しました。

necostat.hatenablog.jp

今回は、実際にどのように推定誤差を計算するのかを見ていきましょう。

点推定：最もありそうな1点を推定する

母集団の平均を、抽出した標本を使って推定することを考えます。例として、日本人男性の平均身長を、ランダムに集めた100人の身長から推定するとします。

数式が登場するので、次のように使用する文字を定義しておきます。

$\mu$ ：母集団の平均（母平均, population mean*1）
$\sigma$ ：母集団の標準偏差
$n$ ：標本のサイズ（ここでは100人）
$X_i (i = 1,2,...,100)$ ：標本で測定された値
$m$ ：標本の平均（標本平均, sample mean）

また次のように、母集団において身長は正規分布していると考えることにします。

$\begin{aligned} X_i \sim N(\mu, \sigma^2) \end{aligned}$

測定の結果、標本の平均が170cmだったとしましょう。数式で書けば下のとおりです。

$\begin{aligned} m &= \frac{\sum_i^n X_i}{n} \\ &= 170 \end{aligned}$

系統誤差がなければ、この標本平均が最も母平均に一致する確率が高そうです。平均が170cmの母集団から無作為（=ランダム）に選んできたら標本平均は170cmになりそうだから、その逆も感覚的には理解できるでしょうか。

このように、母集団の特性として最も良さそうな推定値のことを、点推定値（point estimate）と言います。

推定の誤差はどれくらい？

「母集団から100人を選んで身長の平均値を求める」という調査を何回も繰り返したとしましょう。選ばれる100人は毎回変わるので、標本平均も毎回変わりますよね。このとき、「標本平均がどれくらいバラつくか」は、「点推定値がどれくらい誤差を含みうるか」を示しています。そこで、標本平均mの分散 $Var(m)$ を計算してみましょう。

分散の計算に関する定理

その前に、分散に関する2つの定理を説明します（理解できなくても、そういう式が成り立つんだと理解するだけでいいです）。

1つ目は、

$\begin{aligned} Var(aX) = a^2 Var(X) \end{aligned}$

です。ある変数Xを定数倍した変数aXの分散は、元の変数Xの分散を $a^2$ 倍したものになる、という内容です。

2つ目は、2つの変数X, Yが互いに独立、つまり影響を及ぼし合わないならば、

$\begin{aligned} Var(X+Y) = Var(X)+Var(Y) \end{aligned}$

が成り立つというものです。

点推定値の分散を計算する

さっきの2つの定理を使って、点推定値、つまりmの分散 $Var(m)$ を計算してみましょう。

$\begin{aligned} Var(m) &= Var\left(\frac{\sum^n_i X_i}{n} \right) \\ &= \frac{1}{n^2} Var\left( \sum^n_i X_i \right) \\ &= \frac{1}{n^2} \sum^n_i Var\left( X_i \right) \\ &= \frac{1}{n^2} n\sigma^2 \\ &= \frac{\sigma^2}{n} \\ \end{aligned}$

1行目の右辺から2行目は、1つ目の定理を使います。2行目から3行目は2つ目の定理を使います。

単位の次元を揃えるために、分散の平方根を取ると、

$\begin{aligned} \frac{\sigma}{\sqrt{n}} \end{aligned}$

となります。これを推定の標準誤差（standard error, SE）と言います。 標準偏差（standard deviation, SD）は分布の広がりを表す指標で、標準誤差は推定値の精度を表す指標です*2。区別して使いましょう。

思い出して下さい。推定の偶然誤差の大きさは、

標本として取ってくる数（サンプルサイズ）
母集団におけるバラツキ具合（母集団の標準偏差）

によって決まりましたね。上の式はこのことを表しています。

母集団の標準偏差はどうやって知るの？

前編で、次のように言いました。

ただ問題なのは、多くのケースで「母集団がどの程度均質か」が事前に分からないことです。これも標本から推定しなくてはいけません。

母集団の分散（=標準偏差の2乗）は、標本から次の式で推定されます。

$\begin{aligned} \frac{\sum_i^n (X_i-m)^2}{n-1} \end{aligned}$

なぜ、nではなくn-1で割るのか気になりますか？「観察されたn個のデータから、平均mを計算した分だけ1を引いた」とだけ説明しておきます。*3

母分散の推定値の平方根を取れば、母集団の標準偏差の推定値になるので、標準誤差は、

$\begin{aligned} SE = \frac{\sqrt{\frac{\sum_i^n (X_i-m)^2}{n-1}}}{\sqrt{n}} \end{aligned}$

となります。

区間推定

点推定値と推定誤差を組み合わせて、「真の値は〇〇から〇〇の範囲にありそうです」みたいに言えると分かりやすいですよね。これを点推定に対して区間推定（interval estimation）と言います。

最もよく使われるのが95%信頼区間（95% confidence interval）でしょう。これは、m-2×SE 〜 m+2×SEで表される区間*4です。

「95%」と「±2」の関係は、「正規分布をσで測る」で一度説明しました。正規分布の中央から-2σ〜+2σの範囲には全体の約95%が収まっているんでしたね。

「95%信頼区間は、95%の確率で母平均を含む区間」という言い方は間違いです。母平均は私たちが知らないだけで、ある値として決まっているので、信頼区間に含まれる確率は0か1のどちらかです。 95%信頼区間の意味を正確に表現すると、「同じ条件で標本を何回も抽出して、信頼区間を計算すると、毎回異なった信頼区間が計算できる。それらの信頼区間のうち95%（= 20個中19個）は母平均を含んでいると考えられる区間」です。