この記事では、1つの母不適合品率における信頼区間の計算方法、計算式の構成について、初心者の方にもわかりやすいよう例題を交えながら解説しています。
不適合品率の信頼区間は、この記事で完結して解説していますが、標本調査の考え方など、区間推定(その1)の記事から段階を追って説明しています。
さまざまな区間推定の種類を網羅的に学習したい方は、ぜひ最初から読んでみてください。
不適合品率とは?
定義
「不適合品」とは規格に適合しないもの、すなわち不良品のことを意味し、不適合品率とは不良品率のことを表します。
とある母集団から$n$個をサンプリングし、その中に$x$個の不良品が入っているとすると、不適合品率$p$は$x/n$となります。
ここで、サンプリングにより得られた不適合品率は「標本不適合品率」のことであり、統計学では「$\hat{p}$」と表記されることが多いです。
その一方で、母集団の不適合品率を意味する「母不適合品率」は$p_{o}$と表記され、$\hat{p}$と区別して表現されます。
母不適合品率の区間推定では、標本データから得られた不適合品率から母集団の不適合品率を推定するもので、サンプルサイズ$n$、不良数$x$から求められます。
不適合品率の計算は直感的で分かりやすいね
二項分布との関係
成功か失敗(または良品/不良品)のいずれかで表される試行のことをベルヌーイ試行と呼びます。
ベルヌーイ試行を1回行う場合において、成功する確率を$p$とすると、失敗する確率は$1-p$となります。
そして、これを何回も繰り返した場合における成功回数の分布を二項分布と呼び、以下の数式で定義されます。
$n$は試行回数、$p$は成功確率、$k$は成功回数を表し、「確率変数$X$は二項分布$B(n,p)$に従う」と表現されます。
二項分布は、不適合品率と密接な関係があります。
例えば、とある検査で不適合品が出現する状態を「成功」、出現しない状態(良品)を「失敗」と当てはめると、まさにこの検査はベルヌーイ試行と言えます。
そして、サンプルサイズ$n$、不適合品率$p$において、不良数$x$(二項分布の定義では$k$と表記)は、二項分布$B(n,p)$に従うと言えるのです。
そのため、母不適合品率の区間推定を行う際にも、二項分布の期待値や分散の考え方が適用されるので、二項分布の基礎をきちんと理解しておきましょう。
母不適合品率の信頼区間の求め方
信頼区間の計算式
母不適合品率の確率分布は、標準正規分布$N(0,1)$に従います。
標準正規分布とは、正規分布を標準化したもので、標本平均から母平均を差し引いて中心値をゼロに補正し、さらに標準偏差で割って単位を無次元化する処理のことを表します。
詳しくは別の記事で紹介していますので、合わせてご覧ください。
標準正規分布では、分布の横軸($Z$値)に対して、全体の何%を占めているのか対応する確率が決まっており、エクセルのNORM.S.DIST関数や標準正規分布表で簡単に求められます。
そして、この$Z$値を係数として用いることで、信頼度○○%の信頼区間の幅を計算することができるのです。
母不適合品率の95%信頼区間の計算式は、以下のように表されます。
$\hat{p}$は標本不適合品率、$p_{o}$は母不適合品率、$n$はサンプルサイズを表します。
$Z$は標準正規分布の$Z$値を意味し、例えば信頼度95%の場合、$Z((1-α)/2)=1.96$となります。
計数値と計量値の違い
実は、母不適合品率の信頼区間は、区間推定(その壱)で紹介した母平均の信頼区間と基本的に同じ考え方を用いています。
その壱で紹介したものは、確率変数が正規分布やt分布に従う「計量値」でしたが、これが二項分布に従う「計数値」に置き換わっただけのことです。
二項分布は不良数$x$に関する確率分布を表したもので、期待値$E(X)=np$、分散$V(X)=np(1-p)$となります(導出過程は二項分布の記事で解説しています)。
これを不適合品率に変換する、すなわちサンプルサイズ$n$で割ると、$E(X)=p$、$V(X)=p(1-p)$となります。
母不適合品率を$p_{o}$と置くと、$E(X)=p_{o}$、$V(X)=p_{o}(1-p_{o})$となります。
ここで先ほどの区間推定の定義の式を見てみると、分母は$\sqrt{V(X)/n}$、分子は「標本平均-母平均」の形になっており、母平均の区間推定と同じ構造の式であることが分かります。
変数がたくさん登場して覚えにくい場合には、式の構造から理解しておくことをおススメします。
関連付けて理解しておくと覚えやすいよ
計算の手順
それでは、実際に母不適合品率の区間推定をやってみましょう。
とある製品を200個抜き取って検査したところ、その中から4個の不良が発見されたとき、この製品の母不適合品率の95%信頼区間はいくらとなるでしょうか?
1.標本不適合品率を求める
サンプリングした結果から、標本の不適合品率$\hat{p}$を求めます。
今回の場合、サンプルサイズ$n=200$、不良数$x=4$なので、$\hat{p}=4/200=0.02$と求められます。
2.対応する$Z$値を求める
母平均の区間推定と同様に、信頼度に対応する$Z$値を求めます。
今回の場合、求めたい信頼度は95%(0.95)となるので、確率Pが0.025(片側で2.5%)となるKp値を読み取ると1.96となります。
3.信頼区間を計算する
先ほどの式に信頼区間95%の$Z$値を入れると、以下の不等式が成立します。
この時、$p_{o}$を求めるために不等式を変形しようとすると、両辺の平方根の中に$p_{o}$が含まれていて計算できないことが分かります。
ここで中心極限定理の考え方を用います。
中心極限定理では、サンプルサイズ$n$が十分に大きい場合に、標本平均は母平均と合致するというもので、今回の場合に当てはめると「$p_{o}=\hat{p}$」と置き換えられるのです。
そこで、先ほどの不等式の中で、平方根に含まれる$p_{o}$を$\hat{p}$として置き換えると、次のように変換することができます。
なお、中心極限定理については、以下の記事で詳しく紹介していますので、合わせてご覧ください。
あとは、標本不適合品率、サンプルサイズを代入すると、母不適合品率の信頼区間を求めることができます。
まとめ
- 母不適合品率の信頼区間の求め方
⇒標準正規分布のZ値を用いる - 計算の手順
⇒標本不適合品率を求める
対応するZ値を求める
信頼区間を計算する
最後まで読んでいただき、ありがとうございました。
コメント