高校生のためのデータ分析入門 (22)：稀なイベントの回数ならポアソン分布！

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

前回：高校生のためのデータ分析入門 (21)：成功？失敗？それなら二項分布！ - ねこすたっと

売店でたまにしか売れない商品、いくつ仕入れたらいい？
稀なイベントの回数にはポアソン分布！
- ポアソン分布の平均と分散
売れないキーホルダーが在庫切れになる確率
おわりに

売店でたまにしか売れない商品、いくつ仕入れたらいい？

学校の売店はすごく繁盛してるんですが、月に2個くらいしか売れないキーホルダーが置いてあります。買いたい人が多くて品切れになったら困りますが、そんなに売れないものを置いておくのも無駄なので、毎月4個仕入れているそうです。

月に売れる個数を変数Xとして、確率分布を考えてみましょう。

n：店に来た人
p：店に来た人がキーホルダーを買う確率

として、前回説明した二項分布を使おうかと思いましたが、「店に来た人」が正確に何人か分かりません。防犯カメラがないので数えることができないんですが、そもそも次のような人たちをnに含むべきかどうか判断できません。

店の前で立ち止まった人
店の方を覗き込んだ人

このケースだとnが分からないので、二項分布を当てはめるのは難しそうです。

稀なイベントの回数にはポアソン分布！

冒頭の例のように、

対象となるイベントはとても稀なこと（pが非常に小さい）
対象となる集団は大きい（nが非常に大きい）

ようなイベントの回数を考えるときは、ポアソン分布（Poisson distribution）を使って二項分布を近似することができます。

ポアソン分布の確率質量関数は、次の式で表されます。

$\begin{aligned} P(X=x) = \frac{\lambda^x e^{-\lambda}}{x!} \ \ \ (\lambda>0, x = 0, 1, 2, ...) \end{aligned}$

ここで、eはネイピア数（自然対数の底）で約2.718です。二項分布の確率関数と比べると、だいぶ難しいですね...。どうしてこのような式の関数が登場したのかは置いといて、どんな性質の関数なのかを確認していきましょう。

ポアソン分布と二項分布の共通点は、両方とも離散変数の確率分布であることですね。一方、ポアソン分布と二項分布の違いは、

分布の形状を決めるパラメータ*1が $\lambda$ （ラムダ）1つだけ（二項分布はnとpの2つ）
Xが取りうる値の上限がない（二項分布は最大でもn）

ということです。

変数Xがポアソン分布に従うことを、

$\begin{aligned} X \sim Poisson(\lambda) \end{aligned}$

とか

$\begin{aligned} X \sim Pois(\lambda) \end{aligned}$

とか、単に、

X \sim Po(\lambda)

と書くことがあります（Pois(λ)もPo(λ)もメジャーな書き方ではないかもしれません）。

ポアソン分布の平均と分散

Xがパラメータλのポアソン分布に従うとき、Xの期待値を計算してみます。

$\begin{aligned} E[X] &= \sum_{k=0}^{\infty} k \frac{\lambda^k e^{-\lambda}}{k!} \\ &= \sum_{k=1}^{\infty} k \frac{\lambda^k e^{-\lambda}}{k!} \\ &= \sum_{k=1}^{\infty} \lambda \frac{\lambda^{k-1} e^{-\lambda}}{(k-1)!} \\ &= \lambda \sum_{k=1}^{\infty} \frac{\lambda^{k-1} e^{-\lambda}}{(k-1)!} \\ &= \lambda \sum_{k'=0}^{\infty} \frac{\lambda^{k'} e^{-\lambda}}{k'!} \\ &= \lambda \end{aligned}$

式変形のヒント：

右辺第1式 → 第2式は、k=0のときは足すものも0なので、k=1から足しても同じだからです。
第5式の $\sum_{k'=0}^{\infty} \frac{\lambda^{k'} e^{-\lambda}}{k'!}$ は、別のポアソン分布の確率の総和なので1になります*2。

次に分散を計算します。まずは E[X²] を求めます。

$\begin{aligned} E[X^2] &= \sum_{k=0}^{\infty} k^2 \frac{\lambda^k e^{-\lambda}}{k!} \\ &= \sum_{k=1}^{\infty} \{k(k-1) + k\} \frac{\lambda^k e^{-\lambda}}{k!} \\ &= \sum_{k=1}^{\infty} k(k-1) \frac{\lambda^k e^{-\lambda}}{k!} + \sum_{k=1}^{\infty} k \frac{\lambda^k e^{-\lambda}}{k!}\\ &= \sum_{k=2}^{\infty} k(k-1) \frac{\lambda^k e^{-\lambda}}{k!} + \lambda\\ &= \lambda^2 \sum_{k=2}^{\infty} \frac{\lambda^{k-2} e^{-\lambda}}{(k-2)!} + \lambda\\ &= \lambda^2 \sum_{k'=0}^{\infty} \frac{\lambda^{k'} e^{-\lambda}}{k'!} + \lambda\\ &= \lambda^2 + \lambda\\ \end{aligned}$

式変形のヒント：

第3式で2つの項に分かれます。後ろ側は期待値を求めたときと同じなのでλになります。
前側も同じように $\sum_{k'=0}^{\infty} \frac{\lambda^{k'} e^{-\lambda}}{k'!} = 1$ を使っています。

これを使うと、分散は

$\begin{aligned} Var(X) &= E[X^2] - (E[X])^2 \\ &= (\lambda^2 + \lambda) - \lambda^2 \\ &= \lambda \end{aligned}$

となります。

まとめると、ポアソン分布では平均も分散もλになります。

売れないキーホルダーが在庫切れになる確率

1か月間で売れるキーホルダーの個数をXとします。「月平均で2個売れる」とのことなので、Xがλ=2のポアソン分布*3に従うとしましょう。

$\begin{aligned} X \sim Poisson(2) \end{aligned}$

前述の確率質量関数の式にx=0,1,2,...を代入して、売上個数の確率分布を計算してみます。

この表からは、売り上げが5個を超える確率が約5.3%と計算できる*4ので、仕入れ個数4個だとだいたい1年半〜2年に1回くらいは在庫切れになる月がありそうです*5（それくらいなら許容派範囲ですね、多分）。

ちなみに、表をグラフにするとこんな感じです。

おわりに

ポアソン分布は平均と分散がλという1つのパラメータで決まってしまいます。正規分布がμとσの2つによって別々に決まっていたのに比べるとやや不自由といえます。
ポアソン分布で二項分布を近似できる目安：
- 目安1：n>50 かつ np<5 （参考：ユタ大学の資料（PDF））
- 目安2：n>100 かつ np≦10（参考：エモリー大学の資料（Webページ））
- 目安3：n>20 かつ p<0.05（参考：チューリッヒ工科大学の資料（PDF））
ポアソン分布もλが大きくなると、正規分布に近似できるようになります（目安：λ>5〜20）
次回：高校生のためのデータ分析入門 (23)：離散型アウトカムの回帰モデル（前編） - ねこすたっと