「ポアソン分布ってどのような分布なの?」
「期待値と分散の計算の仕方を知りたい」
「エクセルでグラフ化したい」
このような疑問や悩みをお持ちの方に向けた記事です。
ポアソン分布とは、ある特定の期間の間にイベントが発生する回数の確率を表した離散型の確率分布です。
稀な事象の発生確率を求める場合に活用され、事故や火災、製品の不具合など、身近な事例も数多くあります。
この記事では、ポアソン分布の定義、期待値と分散の導出の仕方、エクセルでグラフ化する手順について解説しています。
初心者の方にもわかりやすいよう、できるだけ細かく手順を踏んで説明しますので、参考になればうれしいです。
ポアソン分布とは?
ポアソン分布の定義
単位時間に平均$λ$回発生する事象が、単位時間に$k$回起こる確率を分布に表したものです。
確率質量関数を表すと以下のようになります。
$e$はネイピア数(自然対数の底)、$λ$は平均の発生回数、$k$は確率変数としての発生回数を表し、「パラメータ$λ$のポアソン分布に従う」「$X~P_{o}(λ)$」と表現されます。
ポアソン分布の事例
- 単位時間に交差点を通過する車の台数
- 1日に来るメールの件数
- 1時間あたりにかかってくる電話の件数
- 1年間で発生する製品の市場不具合の数
- 一定時間内の店への来店者数
身近な出来事もポアソン分布で計算できるんだね
二項分布との関係
ポアソン分布で表されるのは、「稀な事象」が対象となります。
つまり、以下の式の二項分布において、試行回数$n$が十分に大きく、確率$p$が十分に小さい場合に当たります。
数式での定義としては、二項分布において$n→∞$、$p→0$とした場合に、$np=$一定として扱うことができ、$np=λ$とおくと、以下の通りポアソン分布の確率質量関数が導出されます。
数式から分かるように、ポアソン分布では、$λ$さえ分かっていれば任意の発生回数における確率を求められるのです。
つまり、二項分布との違いとしては、$n$や$p$が分かっていない場合においても確率を計算できることが、ポアソン分布の大きな特徴です。
先ほどの事例として、店への来店者数を見積もることをイメージしてみてください。
二項分布で表現しようとすると、例えば、店の前を通過する人数に対して、「店に入るか入らないか」1か0で決まるとします。
そして、店に入る確率が○○%と分かった場合に、ようやく$n$と$p$が明確になって、△△人が来店する確率にたどり着くことになります。
一方、ポアソン分布の場合、過去の統計データなどから単位時間に来店する平均人数が分かっていれば、それだけで確率を計算することができます。
このように、事象の性質によって、二項分布とポアソン分布を使い分けることで、必要最小限の情報で目的の確率を求められるので、ぜひ特徴を覚えておきましょう。
なお、「$n$が十分大きい」というのは、一般的には $n>50$、$np≤5$ を目安として用いられることが多いです。
ランダムに起きることが前提だよ
ここまで、確率質量関数や二項分布について触れましたが、別の記事で詳しく紹介していますので、合わせてご覧ください。
期待値と分散の導出
ポアソン分布における期待値$E(X)$と分散$V(X)$はとてもシンプルで、どちらも$λ$となります。
導出の過程は少し難しいですが、興味のある方は参考にどうぞ。
数式から正しく求める場合は、上記の通りですが、二項分布の定義から見積もってみると、どうなるか見てみましょう。
二項分布では、期待値と分散は次のように表されます。
期待値$np$は、ポアソン分布の場合 $np=λ$と定義しているので、そのままポアソン分布の期待値が$λ$になることは分かりやすいと思います。
また、分散に関しては、$np(1-p)$となりますが、$-np^{2}$が限りなくゼロに近いことから、$np(=λ)$に近似できそうなことは感覚的に掴んでいただけるかと思います。
なお、$E(X)$と$V(X)$の意味、$V(X)$の導出の過程については、別の記事で解説していますので、合わせてご覧ください。
エクセルでのグラフの書き方
エクセルでのポアソン分布の確率の求め方、グラフの書き方を紹介します。
エクセルには便利な関数があり、POISSON.DIST関数を用いれば、これ一つで確率質量関数を計算することができます。
DISTというのは、分布(distribution)の略なので、ポアソン分布の名前がそのまま関数名になっています。
使い方は簡単で、次の3つの変数を指定するだけです。
①:イベント数($k$)
②:平均($λ$)
③:関数形式(TRUE or FALSE)
③の関数形式については、確率質量関数を求めたい場合はFALSE、累積分布関数を求めたい場合はTRUEを選択しましょう。
累積分布関数とは、確率変数がある値以下となる確率の関数のことで、以下の数式で定義されます。
例えば、$λ=3$として、確率変数$X=k$における確率質量関数$P(X)$を求めると以下のようになります。
また、同様に確率変数$X=k$における累積分布関数$F(X)$を求めると以下になります。
累積分布関数は、イベント数が大きくなるにつれて、1に収束することが見て取れます。
これは、確率の合計値が1になることを表しており、この性質がグラフからも分かります。
試行回数の違いによる影響
試行回数の違いによって、分布形状がどのように変化するのか見てみましょう。
以下は、$λ$を1から10まで変えた場合のポアソン分布のグラフです。
ポアソン分布は回数を示す確率分布なので、確率変数が0より小さい値は取りません。
そのため、例えば $λ$が5以下の場合には、分布の左端が途切れて、左右非対称の形状となります。
反対に、$λ$が5より大きい場合には、ほぼ左右対称に近い形状となっています。
ポアソン分布を適用する目安として、$np≤5$というのは、分布の非対称性の影響を考慮したもので、正規分布で近似すると計算結果の乖離が大きくなってしまうからです。
それぞれの分布の特徴を知っておこう
例題
ネイピア数の定義
ポアソン分布ではネイピア数$e$を使用しますが、そもそもネイピア数とはどのような概念の数なのか紹介します。
ネイピア数(自然対数の底)とは、数式では以下のように定義されます。
しかし、極限や$n$乗が登場して、定義として丸暗記したものの、この式が何を意味するのか具体的なイメージと結び付きにくい方も多いのではないかと思います。
ネイピア数の概念を掴むのに、金利の複利計算の考え方がよく用いられます。
例えば、1年間で利息が100%付与される金融商品があったとします。
年一回の利息が付く場合、以下のイメージ図のように、1年複利で+1倍の利息が付き、1年後には元手が2倍になる計算になります。
では、同じ+1倍の利息でも、年2回で0.5倍ずつに分かれるとどうなるでしょう。
半年で1/2倍の利息、1年に2回の複利を受けることができます。
1年後の資産としては、複利の効果が得られる分だけ、年一回の利息よりも多くなります。
年3回、年4回・・・年$n$回と増やすと、さらに複利の効果が高くなります。
横軸に$n$、縦軸に$(1+1/n)^{n}$(=1年後の資産)を取った場合のグラフは以下のようになります。
ここで、$n$を$∞$にした場合の収束値がネイピア数となるのです。
ネイピア数は、2.718・・・なので、仮に利息の受ける回数を年間で無限回に分割したとしても、2.8倍以上にはならないことが、イメージとして掴んでいただけるかと思います。
まとめ
- ポアソン分布
⇒ある特定の期間の間にイベントが発生する回数の確率を表した離散型の確率分布のこと
⇒事故や火災、製品の不具合などの稀な事象に適用 - 期待値と分散
⇒$λ$(平均回数) - エクセルでの求め方
⇒POISSON.DIST関数で、確率質量関数と累積分布関数を計算できる
二項分布との違いの特徴をきちんと押さえて、ぜひ活用してみてください。
最後まで読んでいただき、ありがとうございました。
この記事で紹介したポアソン分布は、統計的品質管理を実践する上での基本要素の一つです。
製造業に携わるエンジニアであれば、その他の統計的手法はもちろんのこと、品質管理、生産の基礎知識を幅広く身につけておく必要があります。
社内講座などの機会が設けられている場合は、ぜひ若手のうちから積極的に活用して受講することをおススメします。
ただ、多くの社員を対象とする社内講座の場合、皆さん一人ひとりのレベルに適した学習ができない場合もあります。
忙しい日々の限られた勉強の時間を最大限に活かすためにも、自分の教育プランは自分で管理することを意識して、能動的に学習することも検討してみてはいかがでしょうか。
コメント