区間推定を習得する(その陸) 母不適合品率の信頼区間の求め方

統計的推定

区間推定(その伍:対応のあるデータの母平均の差)の続編です。

この記事では、1つの母不適合品率における信頼区間の計算方法、計算式の構成について、初心者の方にもわかりやすいよう例題を交えながら解説しています。

不適合品率の信頼区間は、この記事で完結して解説していますが、標本調査の考え方など、その壱から段階を追って説明しています。

さまざまな区間推定の種類を網羅的に学習したい方は、ぜひ最初から読んでみてください。

区間推定を習得する(その壱) 母平均の信頼区間の求め方
母平均の信頼区間を求める場合、母分散が既知の場合には標準正規分布、未知の場合にはt分布を使う方法に分かれます。この記事では、それぞれの方法に対する母平均の信頼区間の計算方法、計算式の構成について、初心者の方にもわかりやすいよう例題を交えながら解説しています。

不適合品率とは?

定義

「不適合品」とは規格に適合しないもの、すなわち不良品のことを意味し、不適合品率とは不良品率のことを表します。

とある母集団から$n$個をサンプリングし、その中に$x$個の不良品が入っているとすると、不適合品率$p$は$x/n$となります。

ここで、サンプリングにより得られた不適合品率は標本不適合品率のことであり、統計学では「$\hat{p}$」と表記されることが多いです。

その一方で、母集団の不適合品率を意味する母不適合品率は$p_{o}$と表記され、$\hat{p}$と区別して表現されます。

母不適合品率の区間推定では、標本データから得られた不適合品率から母集団の不適合品率を推定するもので、サンプルサイズ$n$、不良数$x$から求められます。

とらまる
とらまる

不適合品率の計算は直感的で分かりやすいね

二項分布との関係

成功か失敗(または良品/不良品)のいずれかで表される試行のことをベルヌーイ試行と呼びます。

ベルヌーイ試行を1回行う場合において、成功する確率を$p$とすると、失敗する確率は$1-p$となります。

そして、これを何回も繰り返した場合における成功回数の分布を二項分布と呼び、以下の数式で定義されます。

$n$は試行回数$p$は成功確率$k$は成功回数を表し、「確率変数$X$は二項分布$B(n,p)$に従う」と表現されます。

二項分布は、不適合品率と密接な関係があります。

例えば、とある検査で不適合品が出現する状態を「成功」出現しない状態(良品)を「失敗」と当てはめると、まさにこの検査はベルヌーイ試行と言えます。

そして、サンプルサイズ$n$、不適合品率$p$において、不良数$x$(二項分布の定義では$k$と表記)は、二項分布$B(n,p)$に従うと言えるのです。

そのため、母不適合品率の区間推定を行う際にも、二項分布の期待値や分散の考え方が適用されるので、二項分布の基礎をきちんと理解しておきましょう。

二項分布とは? 期待値と分散の導出、エクセル関数の使い方
二項分布とは、成功か失敗のいずれかとなる試行において、成功回数を確率変数とした離散型の確率分布を表します。この記事では、二項分布の定義、期待値と分散の導出の仕方、エクセルでグラフ化する手順について、例題と合わせて解説しています。

母不適合品率の信頼区間の求め方

信頼区間の計算式

母不適合品率の確率分布は、標準正規分布$N(0,1)$に従います

標準正規分布とは、正規分布を標準化したもので、標本平均から母平均を差し引いて中心値をゼロに補正し、さらに標準偏差で割って単位を無次元化する処理のことを表します。

詳しくは別の記事で紹介していますので、合わせてご覧ください。

正規分布とは? 期待値と分散の導出、エクセル関数の使い方
正規分布とは、分布の中央に位置する平均値において最も高い頻度を持つ、左右対称の形状が特徴の連続型の確率分布で、ガウス分布とも呼ばれています。この記事では、正規分布の定義、期待値と分散の導出の仕方、エクセルでグラフ化する手順について解説しています。

標準正規分布では、分布の横軸($Z$値)に対して、全体の何%を占めているのか対応する確率が決まっており、エクセルのNORM.S.DIST関数標準正規分布表で簡単に求められます。

そして、この$Z$値を係数として用いることで、信頼度○○%の信頼区間の幅を計算することができるのです。

母不適合品率の信頼区間の計算式は、以下のように表されます。

$\hat{p}$は標本不適合品率$p_{o}$は母不適合品率$n$はサンプルサイズを表します。

$Z$は標準正規分布の$Z$値$α$は信頼度を意味し、例えば信頼度95%の場合、$(1-α)/2=0.025$、$Z((1-α)/2)=1.96$となります。

計数値と計量値の違い

実は、母不適合品率の信頼区間は、区間推定(その壱)で紹介した母平均の信頼区間と基本的に同じ考え方を用いています。

その壱で紹介したものは、確率変数が正規分布やt分布に従う計量値でしたが、これが二項分布に従う計数値に置き換わっただけのことです。

二項分布は不良数$x$に関する確率分布を表したもので、期待値$E(X)=np$、分散$V(X)=np(1-p)$となります(導出過程は二項分布の記事で解説しています)。

これを不適合品率に変換する、すなわちサンプルサイズ$n$で割ると、$E(X)=p$、$V(X)=p(1-p)$となります。

母不適合品率を$p_{o}$と置くと、$E(X)=p_{o}$、$V(X)=p_{o}(1-p_{o})$となります。

ここで先ほどの区間推定の定義の式を見てみると、分母は$\sqrt{V(X)/n}$分子は「標本平均-母平均」の形になっており、母平均の区間推定と同じ構造の式であることが分かります。

変数がたくさん登場して覚えにくい場合には、式の構造から理解しておくことをおススメします。

関連付けて理解しておくと覚えやすいよ

計算の手順

それでは、実際に母不適合品率の区間推定をやってみましょう。

とある製品を100個抜き取って検査したところ、その中から2個の不良が発見されたとき、この製品の母不適合品率の95%信頼区間はいくらとなるでしょうか?

1.標本不適合品率を求める

サンプリングした結果から、標本の不適合品率$\hat{p}$を求めます。

今回の場合、サンプルサイズ$n=100$、不良数$x=2$なので、$\hat{p}=2/100=0.02$と求められます。

2.対応する$Z$値を求める

母平均の区間推定と同様に、信頼度に対応する$Z$値を求めます。

今回の場合、求めたい信頼区間は95%(0.95)となるので、$0~z$に収まる確率が$0.475$となる$z$の値を標準正規分布表から読み取ると、$z=1.96$と求めることができました。



3.信頼区間を計算する

先ほどの式に信頼区間95%の$Z$値を入れると、以下の不等式が成立します。

この時、$p_{o}$を求めるために不等式を変形しようとすると、両辺の平方根の中に$p_{o}$が含まれていて計算できないことが分かります。

ここで中心極限定理の考え方を用います。

中心極限定理では、サンプルサイズ$n$が十分に大きい場合に、標本平均は母平均と合致するというもので、今回の場合に当てはめると「$p_{o}=\hat{p}$」と置き換えられるのです。

そこで、先ほどの不等式の中で、平方根に含まれる$p_{o}$を$\hat{p}$として置き換えると、次のように変換することができます。

なお、中心極限定理については、以下の記事で詳しく紹介していますので、合わせてご覧ください。

中心極限定理とは? エクセルの乱数計算で視覚的に表現してみた
中心極限定理とは、平均値μ、分散σ2の確率分布からn個を抽出する際、標本平均はnが十分大きい場合において、正規分布N(μ、σ2/n)に従うという定理です。この記事では、定義と活用するメリット、グラフで視覚的に理解するためのエクセルを用いたシミュレーションを紹介しています。

あとは、標本不適合品率、サンプルサイズを代入すると、母不適合品率の信頼区間を求めることができます。

まとめ

  • 母不適合品率の信頼区間の求め方
    ⇒標準正規分布のZ値を用いる
  • 計算の手順
    ⇒標本不適合品率を求める
     対応するZ値を求める
     信頼区間を計算する

その陸編は以上です。

最後まで読んでいただき、ありがとうございました。

スポンサーリンク
統計的推定
こてつをフォローする
この記事を書いた人
こてつ

【経歴】
関東在住の37歳、大手電機メーカの生産技術職。
これまで、研究開発、設計、生産技術、仕入先の品質管理を手掛ける。

【保有知識・技術分野】
統計学、信頼性工学、品質工学。
半導体、基板、有機材料、金属、セラミックスの材料、製造、加工技術。
部品加工(機械加工、化学処理)、組立技術、分析・物理解析技術。

【当サイトについて】
品質・生産の基礎知識をテーマに、用語の解説、使い方(作り方)、メリット、考え方のポイントを見習いエンジニア”とらまる”と一緒に分かりやすく解説しています。

こてつをフォローする
QCとらのまき

コメント