ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

高校生のためのデータ分析入門 (21):成功?失敗?それなら二項分布!

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

前回:

高校生のためのデータ分析入門 (20):期待値と分散・共分散の計算シャワー - ねこすたっと

残り試合でヒットは何本出そう?

確率変数が取りうる値と、その確率を示した関数を確率分布といい、正規分布は連続型確率分布の代表格である、と以前説明しました。

necostat.hatenablog.jp

今回は、離散型確率変数の代表である二項分布について説明します。

例えば、真の打率が3割ちょうどの選手がいるとします。残り5試合(15打数)で3本ヒットを打つことができると、チームの歴代最多安打記録を更新することができます。 「15打数×3割 = 4.5本だから、3本でOKなら確実じゃん!」と思ったあなた、本当にそうでしょうか?

「順位や試合展開によっては敬遠されて…」とか考え出すとキリがないので、問題をシンプルにするために、打数は15で固定しましょう。 ヒットの本数を変数Xとすると、Xの取りうる値xは0〜15ですね*1。ヒットの本数がxである確率  Pr(X=x) は、以下のようになります。

 
\begin{aligned}
P(X=x) = \ _{15} C_x (0.3)^x (0.7)^{15-x}
\end{aligned}

xを0から15まで変えて、  Pr(X=x) を計算してみます。

この表から、3本以上ヒットを打てる確率は約87%と分かりますね。意外に確実でもなさそうです。

ちなみに、さっきの表をグラフにするとこんな感じ。

二項分布とは?

二項分布で扱うのは、

  • コインを投げて表裏のどちらが出るか
  • 引き分けのない試合で勝つか負けるか
  • 1年間で入院することがあるかどうか
  • 事業に成功するか失敗するか

のような「2種類の事象のどちらかを取る試行(ベルヌーイ試行, Bernoulli trial)」です。2種類の事象は必ずどちらかが起こるので、一方の事象(例:成功)が起こる確率をpとすると、他方(例:失敗)が起こる確率は1-pです。「確率pがどちらの事象に注目しているか」を必ず明確にしなくてはいけません。

互いに独立な*2ベルヌーイ試行をn回繰り返したときに観察される成功の数Xが従う確率分布が、二項分布(binomial distribution)です。 変数Xが二項分布を従うことを、

 
\begin{aligned}
X \sim Binom(n, p)
\end{aligned}

あるいは単に、

 
\begin{aligned}
X \sim B(n, p)
\end{aligned}

と書くことがあります。

ベルヌーイ分布:二項分布の特殊形

ベルヌーイ試行を1回だけ行ったときの確率分布ベルヌーイ分布(Bernoulli distribution)と言います。 二項分布でn=1とした場合( B(1,p) )です。

ベルヌーイ分布に従う変数Xは、X=1になる確率がp、X=0になる確率が1-pなので、 期待値は、

 
\begin{aligned}
E[X] &= p \times 1 + (1-p) \times 0\\
&= p 
\end{aligned}

となります。これは直感でも分かりますね。

分散は、

 
\begin{aligned}
Var(X) &= E[X^2] - (E[X])^2 \\
&= (p \times 1^2 + (1-p) \times 0^2) - p^2\\
&= p - p^2 \\
&= p(1-p)
\end{aligned}

となります。これはpの2次関数で、p=0.5のとき最大で、p=0または1のときに最小となりますね。 「分散が大きい」ということは、「Xの値がバラついていて、X=1になるかX=0になるか見当もつかない」ということなので、どっちに転ぶかわからないとき、つまりp=0.5のときに分散が最大になるのも直感的に納得できます。 逆にpが0や1に近いときは、「Xは0あるいは1ばっかりになって、結果はそんなにバラつかない」ということです。

二項分布の平均と分散

前回、期待値と分散の計算を色々確認しました。

necostat.hatenablog.jp

次のように、二項分布はベルヌーイ分布の集合とみなすことができます。 例えば、15打数でのヒット本数Xは、

  •  X_1:1打数目でヒットかどうか
  •  X_2:2打数目でヒットかどうか
    ...
  •  X_{15}:15打数目でヒットかどうか

の合計ですよね。 X_i はそれぞれ平均p, 分散p(1-p)のベルヌーイ分布に従うので、 「和の期待値」を使えば、

 
\begin{aligned}
E[X] &= E[X_1 + X_2 + X_3 + ... + X_{15} ] \\
&= E[X_1] + E[X_2] + E[X_3] + ... E[X_{15}] \\
&= p + p + p + ... + p\\
&= np
\end{aligned}

となります。「15打数×3割 = 4.5本」と見積もったので、これも直感的にわかりますね。

分散もベルヌーイ分布から計算します。 足し合わせる変数が互いに独立ならば、「和の分散は分散の和」なので、

 
\begin{aligned}
Var(X) &= Var(X_1 + X_2 + X_3 + ... + X_{15} ) \\
&= Var(X_1) + Var(X_2) + Var(X_3) + ... Var(X_{15}) \\
&= p(1-p) + p(1-p) + p(1-p) + ... + p(1-p)\\
&= np(1-p)
\end{aligned}

となります。

おわりに

*1:これまでは適当に書いてきましたが、変数の名前は大文字、実際に観察される値は小文字で書いて区別するのが一般的です。

*2:「試行同士が影響しあわず、試行の結果が他の試行の結果と関連しない」ということです。「独立かどうか」という話と「確率pが変わらないかどうか」という話がごちゃ混ぜになりそうなので、続きはまた今度。