ねこすたっと

ねこの気持ちと統計について悩む筆者の備忘録的ページ。

高校生のためのデータ分析入門 (22):稀なイベントの回数ならポアソン分布!

数学が苦手なうちのJKに、将来必要となるかもしれないデータ分析への抵抗感をなくしてもらう目的で記事を書くことにしました。

前回:高校生のためのデータ分析入門 (21):成功?失敗?それなら二項分布! - ねこすたっと

売店でたまにしか売れない商品、いくつ仕入れたらいい?

学校の売店はすごく繁盛してるんですが、月に2個くらいしか売れないキーホルダーが置いてあります。買いたい人が多くて品切れになったら困りますが、そんなに売れないものを置いておくのも無駄なので、毎月4個仕入れているそうです。

月に売れる個数を変数Xとして、確率分布を考えてみましょう。

  • n:店に来た人
  • p:店に来た人がキーホルダーを買う確率

として、前回説明した二項分布を使おうかと思いましたが、「店に来た人」が正確に何人か分かりません。 防犯カメラがないので数えることができないんですが、そもそも次のような人たちをnに含むべきかどうか判断できません。

  • 店の前で立ち止まった人
  • 店の方を覗き込んだ人

このケースだとnが分からないので、二項分布を当てはめるのは難しそうです。

稀なイベントの回数にはポアソン分布!

冒頭の例のように、

  • 対象となるイベントはとても稀なこと(pが非常に小さい)
  • 対象となる集団は大きい(nが非常に大きい)

ようなイベントの回数を考えるときは、ポアソン分布(Poisson distribution)を使って二項分布を近似することができます。

ポアソン分布の確率質量関数は、次の式で表されます。

 
\begin{aligned}
P(X=x) = \frac{\lambda^x e^{-\lambda}}{x!} \ \ \ (\lambda>0, x = 0, 1, 2, ...)
\end{aligned}

ここで、eはネイピア数(自然対数の底)で約2.718です。 二項分布の確率関数と比べると、だいぶ難しいですね...。どうしてこのような式の関数が登場したのかは置いといて、どんな性質の関数なのかを確認していきましょう。

ポアソン分布と二項分布の共通点は、両方とも離散変数の確率分布であることですね。 一方、ポアソン分布と二項分布の違いは、

  • 分布の形状を決めるパラメータ*1 \lambda(ラムダ)1つだけ(二項分布はnとpの2つ)
  • Xが取りうる値の上限がない(二項分布は最大でもn)

ということです。

変数Xがポアソン分布に従うことを、

 
\begin{aligned}
X \sim Poisson(\lambda)
\end{aligned}

とか

 
\begin{aligned}
X \sim Pois(\lambda)
\end{aligned}

とか、単に、

X \sim Po(\lambda)

と書くことがあります(Pois(λ)もPo(λ)もメジャーな書き方ではないかもしれません)。

ポアソン分布の平均と分散

Xがパラメータλのポアソン分布に従うとき、Xの期待値を計算してみます。

 
\begin{aligned}
E[X] &= \sum_{k=0}^{\infty} k \frac{\lambda^k e^{-\lambda}}{k!} \\
&= \sum_{k=1}^{\infty} k \frac{\lambda^k e^{-\lambda}}{k!} \\
&= \sum_{k=1}^{\infty} \lambda \frac{\lambda^{k-1} e^{-\lambda}}{(k-1)!} \\
&= \lambda  \sum_{k=1}^{\infty} \frac{\lambda^{k-1} e^{-\lambda}}{(k-1)!} \\
&= \lambda  \sum_{k'=0}^{\infty} \frac{\lambda^{k'} e^{-\lambda}}{k'!} \\
&= \lambda
\end{aligned}

式変形のヒント:

  • 右辺第1式 → 第2式は、k=0のときは足すものも0なので、k=1から足しても同じだからです。
  • 第5式の  \sum_{k'=0}^{\infty} \frac{\lambda^{k'} e^{-\lambda}}{k'!} は、別のポアソン分布の確率の総和なので1になります*2

次に分散を計算します。まずは E[X2] を求めます。

 
\begin{aligned}
E[X^2] &= \sum_{k=0}^{\infty} k^2 \frac{\lambda^k e^{-\lambda}}{k!} \\
&= \sum_{k=1}^{\infty} \{k(k-1) + k\} \frac{\lambda^k e^{-\lambda}}{k!} \\
&= \sum_{k=1}^{\infty} k(k-1) \frac{\lambda^k e^{-\lambda}}{k!}  + \sum_{k=1}^{\infty} k \frac{\lambda^k e^{-\lambda}}{k!}\\
&= \sum_{k=2}^{\infty} k(k-1) \frac{\lambda^k e^{-\lambda}}{k!}  + \lambda\\
&= \lambda^2 \sum_{k=2}^{\infty} \frac{\lambda^{k-2} e^{-\lambda}}{(k-2)!}  + \lambda\\
&= \lambda^2 \sum_{k'=0}^{\infty} \frac{\lambda^{k'} e^{-\lambda}}{k'!}  + \lambda\\
&= \lambda^2  + \lambda\\
\end{aligned}

式変形のヒント:

  • 第3式で2つの項に分かれます。後ろ側は期待値を求めたときと同じなのでλになります。
  • 前側も同じように \sum_{k'=0}^{\infty} \frac{\lambda^{k'} e^{-\lambda}}{k'!} = 1 を使っています。

これを使うと、分散は

 
\begin{aligned}
Var(X) &= E[X^2] - (E[X])^2 \\
&= (\lambda^2  + \lambda) - \lambda^2 \\
&= \lambda
\end{aligned}

となります。

まとめると、ポアソン分布では平均も分散もλになります。

売れないキーホルダーが在庫切れになる確率

1か月間で売れるキーホルダーの個数をXとします。「月平均で2個売れる」とのことなので、Xがλ=2のポアソン分布*3に従うとしましょう。

 
\begin{aligned}
X \sim Poisson(2)
\end{aligned}

前述の確率質量関数の式にx=0,1,2,...を代入して、売上個数の確率分布を計算してみます。

この表からは、売り上げが5個を超える確率が約5.3%と計算できる*4ので、仕入れ個数4個だとだいたい1年半〜2年に1回くらいは在庫切れになる月がありそうです*5(それくらいなら許容派範囲ですね、多分)。

ちなみに、表をグラフにするとこんな感じです。

おわりに

*1:「母数」とも言う

*2:本当はこれも示さないといけないんですが、高校で習う数学の範囲は超えてしまいます。気になる人はこちら → ポアソン分布の定義と例と性質まとめ | 数学の景色

*3:λ=2のポアソン分布の平均は2だから。

*4:1-Pr(X≦4)より。

*5:1/24=0.042, 1/18=0.056だから。