区間推定を習得する(その伍) 対応のあるデータの母平均の差

統計的推定

区間推定(その肆:対応のないデータの母平均の差)の続編です。

この記事では、対応のある2つの正規分布における母平均の差の信頼区間の計算方法、計算式の構成について、初心者の方にもわかりやすいよう例題を交えながら解説しています。

標本調査の考え方など、その壱から段階を追って説明しています。

さまざまな区間推定の種類を網羅的に学習したい方は、ぜひ最初から読んでみてください。

区間推定を習得する(その壱) 母平均の信頼区間の求め方
母平均の信頼区間を求める場合、母分散が既知の場合には標準正規分布、未知の場合にはt分布を使う方法に分かれます。この記事では、それぞれの方法に対する母平均の信頼区間の計算方法、計算式の構成について、初心者の方にもわかりやすいよう例題を交えながら解説しています。

対応のあるデータとは?

2つの母集団のデータに関連がある場合で、例えば、とある病気の患者に薬を投与した際の効果を比較するケースなどに用いられる手法です。

そのため、2つのデータのサンプルサイズは同じであり、また、それぞれの対応関係が入れ替わらないようサンプリング番号の対応も決まっています

「対応のないデータ」と間違えやすいので、それぞれの特徴に注意しながら使いこなせるようにしておきましょう。

区間推定を習得する(その肆) 対応のないデータの母平均の差
対応のないデータの母平均の差の区間推定では、t分布を用いて計算します。この記事では、対応のない2つの正規分布における母平均の差の信頼区間の計算方法、計算式の構成について、初心者の方にもわかりやすいよう例題を交えながら解説しています。

母平均の差の信頼区間の求め方

信頼区間の計算式

対応のあるデータの母平均の差の確率分布は、対応のないデータの場合と同様にt分布に従います

t分布とは以下の数式により求められる統計量t値が従う確率分布のことです。

$\bar{x}$は標本平均$μ$は母平均$s^{2}$は不偏分散$n$はサンプルサイズを表します。

詳しくは別の記事で解説していますので、合わせてご覧ください。

t分布とは? 活用の用途、エクセル関数の使い方を解説
t分布とは、母集団の分散や標準偏差が未知の場合において、標本の標準偏差を用いて標本平均を標準化したときの値「t」が従う確率分布のことです。この記事では、t分布の定義と性質、活用の用途、期待値と分散の導出の仕方、エクセルやt分布表から確率を求める手順について解説しています。

t分布では、分布の横軸(値)に対して、全体の何%を占めているのか対応する確率が決まっており、エクセルのT.DIST関数t分布表で簡単に求められます。

そして、この値を係数として用いることで、信頼度○○%の信頼区間の幅を計算することができるのです。

対応のあるデータの母平均の差の信頼区間は、以下の数式で表されます。

$\bar{d}$は対応するデータの差の平均値$μ_{A}, μ_{B}$は母平均$s^{2}$はデータの差の不偏分散$n$はサンプルサイズ$α$は信頼度を表します。



対応のないデータの場合と異なるのは、それぞれのデータが一対になっているので、「データの差」をパラメータとした統計量を用いることです。

元のデータは2つの集団から構成されますが、最初にデータの差を取って平均値と不偏分散を計算すれば、あとは1つの母平均に関する区間推定と同じ考え方です。

とらまる
とらまる

考え方は意外とシンプルなんだね

平均値に関する区間推定は以下の記事で詳しく解説していますので、合わせてご覧ください。

区間推定を習得する(その壱) 母平均の信頼区間の求め方
母平均の信頼区間を求める場合、母分散が既知の場合には標準正規分布、未知の場合にはt分布を使う方法に分かれます。この記事では、それぞれの方法に対する母平均の信頼区間の計算方法、計算式の構成について、初心者の方にもわかりやすいよう例題を交えながら解説しています。

計算の手順

それでは、実際に母平均の差の区間推定をやってみましょう。

以下は、とある病気の患者に薬を投与したときの検査データの結果です。

投与前後の分布がそれぞれ正規分布に従うとき、母平均の差の95%信頼区間はいくらとなるでしょうか?

1.データの差を求める

最初に2つの集団の対応するデータの差を取ります。

元データを使用するのはここまでで、以降では「データの差」をパラメータに扱います。

1つにまとめられたデータを使うんだね

2.平均値と不偏分散を求める

先ほど求めたデータの差に対して平均値と不偏分散を求めます。



3.t値を求める

自由度と信頼度に対応するt値を求めます。

ここでいう自由度とは、データの対の数をサンプルサイズとした場合の自由度であり、今回のケースでは$φ=10-1=9$となります。

また、信頼度$α$に対応するt値をt分布表から読み取ります。

t分布表とは、横軸に確率$p$、縦軸に自由度nを取って、マトリックスの交差する箇所に対応するt値が記載されている表です。

クリックで拡大

t分布表で表す確率$p$は、t値に対する上側(右側)確率を意味します。

今回の場合、求めたい信頼区間は95%(0.95)となるので、自由度$φ=9$の上側確率$0.025(=(1-0.95)/2)$に対応するt値を読み取ると、$t=2.262$と求めることができました。

ちなみに、エクセルのT.INV関数を用いてもt値を求めることができます。

T.INV関数とは、t分布の下側(左側)確率の逆関数を表し、今回の事例の場合、$=T.INV(1-0.025, 9)$と入力すると同じ値が得られます。



4.信頼区間を計算する

母平均の差の信頼区間の式に信頼度95%のt値を入れると、以下の不等式が成立します。

そして、これを母平均の差$(μ_{A}-μ_{B})$に対して変換すると以下のようになります。

あとは、標本平均、不偏分散、サンプルサイズを代入すると、母平均の差の信頼区間は以下のように求めることができました。

まとめ

  • 母平均の差の信頼区間の求め方
    ⇒t分布のt値を用いる
     サンプルサイズは同一、データの並び順に注意
  • 計算の手順
    ⇒データの差を求める
     平均値と不偏分散を求める
     信頼度に対応するt値を求める
     母平均の差の推定値を計算する

その伍編は以上です。

最後まで読んでいただき、ありがとうございました。

スポンサーリンク
統計的推定
こてつをフォローする
この記事を書いた人
こてつ

【経歴】
関東在住の37歳、大手電機メーカの生産技術職。
これまで、研究開発、設計、生産技術、仕入先の品質管理を手掛ける。

【保有知識・技術分野】
統計学、信頼性工学、品質工学。
半導体、基板、有機材料、金属、セラミックスの材料、製造、加工技術。
部品加工(機械加工、化学処理)、組立技術、分析・物理解析技術。

【当サイトについて】
品質・生産の基礎知識をテーマに、用語の解説、使い方(作り方)、メリット、考え方のポイントを見習いエンジニア”とらまる”と一緒に分かりやすく解説しています。

こてつをフォローする
QCとらのまき

コメント