ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

高校生のためのデータ分析入門 (9):サンプルから推定する(後編)

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

前回のおさらい

中編では、推定誤差を計算する方法を説明しました。

necostat.hatenablog.jp

今回は、実際の例で計算してみましょう。

計算:母平均を推定する

日本人男性の平均身長を推定するために、100人の身長を測定したとしましょう。100個の身長Xを元に、次のように標本平均mと標準誤差SEを計算すれば信頼区間を求められます。

 
\begin{aligned}
m = \frac{\sum_i^n X_i}{n} \\
\end{aligned}

もし、次の要約値のみが与えられた場合はどうやって計算したらいいでしょう?(そんな計算問題もあるかもしれません)

 
\begin{aligned}
\sum_{i=1}^{100} X_i &= 16896 \\
\sum_{i=1}^{100} X_i^2 &= 2859636
\end{aligned}

点推定値mは次のように簡単にもとまりますね。

 
\begin{aligned}
m &= \frac{\sum_i^n X_i}{100} \\
&= \frac{16896}{100} \\
&\approx 169.0
\end{aligned}

問題は母分散の推定値 \hat{\sigma}^2 です*1。推定値として計算したいのは、

 
\begin{aligned}
\hat{\sigma}^2 = \frac{\sum_i^n (X_i -m)^2}{n-1}
\end{aligned}

ですが、 X_i - m を直接計算できないので、次のような工夫が必要です。

 
\begin{aligned}
(X_i - m)^2 = X_i^2 -2mX_i + m^2 
\end{aligned}

なので、両辺の和を取ると、

 
\begin{aligned}
\sum_i^n (X_i - m)^2 &= \sum_i^n X_i^2 - \sum_i^n 2mX_i +  \sum_i^n m^2 \\
&= \sum_i^n X_i^2 - 2m \sum_i^n X_i + nm^2 \\
&= \sum_i^n X_i^2 - 2nm^2 + nm^2 \\
&= \sum_i^n X_i^2 - nm^2
\end{aligned}

となります。

式変形のヒント:

  • mは i を含んでいないので、和を計算するときは定数扱い。
  •  m = \frac{\sum X_i}{n} なので \sum X_i = nm

では、実際の数値を代入してみましょう。

 
\begin{aligned}
\sum_i^n (X_i - m)^2 &= \sum_i^n X_i^2 - nm^2 \\
&= 2859636 - 100(168.96)^2 \\
&= 4887.84
\end{aligned}

よって、母集団の分散(および標準偏差)の推定値は、

 
\begin{aligned}
\hat{\sigma}^2 &= \frac{4887.84}{99} \\
&\approx 49.37 \\
\hat{\sigma} &= \sqrt{49.37} \\
&\approx 7.03
\end{aligned}

と計算できます。

これを使って標準誤差は

 
\begin{aligned}
SE &= \frac{7.03}{\sqrt{100}} \\
&\approx 0.70
\end{aligned}

と計算できるので、母集団の身長の95%信頼区間は

 
\begin{aligned}
(m - 2\times SE, m + 2\times SE) &= (168.96 - 2\times0.07, 168.96 + 2\times0.07) \\
&\approx (167.6, 170.4)
\end{aligned}

となります。

上の例では、XはN(170, 7)からランダムに抽出したので、母平均・母分散は概ね正しく推定できています。

母集団の割合の場合はどうしたらいいの?

例えば、内閣支持率の場合はどうでしょう。有権者のうち何パーセントが支持しているかを、1000人に調査したとします。

測定される項目は「はい・いいえ」の2通りしかありません。母集団の分布を考えるにしても、身長のときの正規分布とは全然違いますね。

<母集団の支持・不支持>

この集団の平均・分散を考えるためには、二項分布(binomial distribution)という、正規分布とは違う分布を勉強する必要があります。

おわりに

  • 実際にデータ分析するときに、自分で計算できる必要はありません。
  • 今回はどちらかというと試験問題で使うときがあるかも。
  • 次回:necostat.hatenablog.jp

*1:文字の上にある傘^ はハットと読み、推定値であることを示すときに使います