この記事では、対応のある2つの正規分布における母平均の差の信頼区間の計算方法、計算式の構成について、初心者の方にもわかりやすいよう例題を交えながら解説しています。
標本調査の考え方など、区間推定(その1)の記事から段階を追って説明しています。
さまざまな区間推定の種類を網羅的に学習したい方は、ぜひ最初から読んでみてください。
対応のあるデータとは?
2つの母集団のデータに関連がある場合で、例えば、とある病気の患者に薬を投与した際の効果を比較するケースなどに用いられる手法です。
そのため、2つのデータのサンプルサイズは同じであり、また、それぞれの対応関係が入れ替わらないようサンプリング番号の対応も決まっています。
「対応のないデータ」と間違えやすいので、それぞれの特徴に注意しながら使いこなせるようにしておきましょう。
母平均の差の信頼区間の求め方
信頼区間の計算式
対応のあるデータの母平均の差の確率分布は、対応のないデータの場合と同様にt分布に従います。
t分布とは以下の数式により求められる統計量t値が従う確率分布のことです。
$\bar{x}$は標本平均、$μ$は母平均、$s^{2}$は不偏分散、$n$はサンプルサイズを表します。
詳しくは別の記事で解説していますので、合わせてご覧ください。
t分布では、分布の横軸(値)に対して、全体の何%を占めているのか対応する確率が決まっており、エクセルのT.DIST関数やt分布表で簡単に求められます。
そして、この値を係数として用いることで、信頼度○○%の信頼区間の幅を計算することができるのです。
対応のあるデータの母平均の差の95%信頼区間は、以下の数式で表されます。
$\bar{d}$は対応するデータの差の平均値、$μ_{A}, μ_{B}$は母平均、 $s^{2}$はデータの差の不偏分散 、$n$はサンプルサイズを表します。
対応のないデータの場合と異なるのは、それぞれのデータが一対になっているので、「データの差」をパラメータとした統計量を用いることです。
元のデータは2つの集団から構成されますが、最初にデータの差を取って平均値と不偏分散を計算すれば、あとは1つの母平均に関する区間推定と同じ考え方です。
考え方は意外とシンプルなんだね
平均値に関する区間推定は以下の記事で詳しく解説していますので、合わせてご覧ください。
計算の手順
それでは、実際に母平均の差の区間推定をやってみましょう。
以下は、とある病気の患者に薬を投与したときの検査データの結果です。
投与前後の分布がそれぞれ正規分布に従うとき、母平均の差の95%信頼区間はいくらとなるでしょうか?
1.データの差を求める
最初に2つの集団の対応するデータの差を取ります。
元データを使用するのはここまでで、以降では「データの差」をパラメータに扱います。
1つにまとめられたデータを使うんだね
2.平均値と不偏分散を求める
先ほど求めたデータの差に対して平均値と不偏分散を求めます。
3.t値を求める
自由度と信頼度に対応するt値を求めます。
ここでいう自由度とは、データの対の数をサンプルサイズとした場合の自由度であり、今回のケースでは$φ=10-1=9$となります。
また、信頼度$α$に対応するt値をt分布表(t表)から読み取ります。
t表とは、横軸に確率$p$、縦軸に自由度$φ$を取って、マトリックスの交差する箇所に対応するt値が記載されている表です。
t分布表で表す確率$p$は、t値に対する両側確率を意味します。
今回の場合、求めたい信頼区間は95%(0.95)となるので、自由度$φ=9$の両側確率に対応するt値を読み取ると、$t=2.262$と求めることができました。
4.信頼区間を計算する
母平均の差の信頼区間の式に信頼度95%のt値を入れると、以下の不等式が成立します。
そして、これを母平均の差$(μ_{A}-μ_{B})$に対して変換すると以下のようになります。
あとは、標本平均、不偏分散、サンプルサイズを代入すると、母平均の差の信頼区間は以下のように求めることができました。
まとめ
- 母平均の差の信頼区間の求め方
⇒t分布のt値を用いる
サンプルサイズは同一、データの並び順に注意 - 計算の手順
⇒データの差を求める
平均値と不偏分散を求める
信頼度に対応するt値を求める
母平均の差の推定値を計算する
最後まで読んでいただき、ありがとうございました。
コメント