統計的検定その1の記事では、統計的検定の概念とメリット、登場する用語の意味、検定の大まかな手順について解説しました。
その2以降では、色々な種類の統計的検定について、帰無仮説と対立仮説の設定のしかた、検定統計量の計算方法、検定の手順について解説していきます。
また、初心者の方にもわかりやすいよう、例題を交えてエクセルを用いた検定のやり方についても説明します。
この記事では1つの母平均に関する統計的検定について記載していますので、参考になればうれしいです。
まずは予備知識を整理しよう
統計的検定では、帰無仮説や対立仮説、有意水準、両側検定といった専門用語が多く登場します。
一度、基本から覚えてしまえば何てことはないのですが、使い方を間違えると誤った結論を導いてしまいます。
また、統計的検定を行う、そもそもの目的が明確でないと、仮説の設定のしかたが不適切になることもあります。
そのため、基礎知識に不安のある方は、まずはこちらの記事を参考にしていただければと思います。
また統計的検定では、区間推定と似た考え方を用いており、検定統計量の計算式も区間推定で登場した式と近いものが多いので、検定と推定はセットで覚えておくとよいです。
区間推定の考え方、母平均の区間推定については、以下の記事で詳しく解説していますので、合わせてご覧いただければと思います。
まずは基本をしっかりと
母分散が既知の場合
母平均の検定は区間推定と同様に、母分散が既知の場合と未知の場合で使用する検定統計量が異なります。
具体的な題材を用いて、実際にやってみましょう。
検定統計量
母分散が既知の場合、標本平均の分布は標準正規分布$N(0,1)$に従います。
標準正規分布とは、正規分布を標準化したもので、標本平均から母平均を差し引いて中心値をゼロに補正し、さらに標準偏差で割って単位を無次元化する処理のことを表します。
詳しくは別の記事で紹介していますので、合わせてご覧ください。
標準正規分布では、分布の横軸($Z$値)に対して、全体の何%を占めているのか対応する確率が決まっており、エクセルのNORM.S.DIST関数や標準正規分布表で簡単に求められます。
そして、この$Z$値を検定統計量の判断指標とすることで、帰無仮説の棄却/採択を判定することができるのです。
検定統計量の式は、以下のように表されます。
$μ$は母平均、$\bar{x}$は標本平均、$σ^{2}$は母分散、$n$はサンプルサイズを表します。
検定の手順
1.仮説を設定する
まずは、検証したい目的に合致した帰無仮説$H_{0}$と対立仮説$H_{1}$を設定します。
改善後の強度が高くなったことを背理法で証明したいので、帰無仮説を「$H_{0}:\bar{μ}=μ_{o}$」、すなわち「改善前と平均値に差異がない」と設定します。
また、対立仮説は本来の目的である証明したい仮説として、「改善後の平均値は改善前よりも高くなった」とします。
$H_{0}:\bar{μ}=μ_{o}$
$H_{1}:\bar{μ}>μ_{o}$(片側検定)
今回の対立仮説では、$\bar{μ}$が$μ_{o}$よりも小さくなる場合は調べたい対象ではないので、片側検定となります。
対立仮説を「$H_{1}:\bar{μ}≠μ_{o}$(改善前後で平均値に差がある)」と設定した場合には、両側検定となるので間違えないように注意しましょう。
2.検定統計量を算出する
先ほどの数式に従い、検定統計量を求めます。
3.帰無仮説の棄却/採択を判定する
検定統計量の値から帰無仮説の棄却/採択を判定します。
判定の指標には、標準正規分布の$Z$値を用います。
通常、統計的検定では、有意水準$α=0.05$や$α=0.01$を基準として用います。
つまり、本当は帰無仮説が正しいのに、誤って棄却してしまう確率が$α=0.05$の場合は5%、$α=0.01$なら1%となる状態のことです。
標準正規分布表から確率$p=0.05$及び$p=0.01$となる$Z$値を求めると以下のようになります。
エクセルの場合、標準正規分布の累積分布関数の逆関数を表すNORM.S.INV関数を使えば、以下のように求めることもできます。
累積分布関数とは、以下のように$-∞$から$Z(α)$の範囲の積分値を表すので、$Z(0.05)$を求めたい場合には、確率に$0.95$を入力します。
先ほどの検定統計量と比較すると、以下の関係であることが分かります。
1%の棄却域には入っていないが、5%の棄却域には入っている状態、つまり有意水準5%で帰無仮説が棄却され、対立仮説が採択されるという結果となります。
4.検定の結論を導く
検定の結果から、今回の結論を出します。
「有意水準5%で改善後の強度の平均値は高くなったと言える」
計算そのものは意外と単純だね
母分散が未知の場合
検定統計量
母分散が未知の場合、標本平均の分布はt分布に従います。
t分布とは以下の数式により求められる統計量t値が従う確率分布のことで、先ほどの標準正規分布の統計量と似ていますが、不偏分散$v^{2}$を扱う点が異なります。
詳しくは以下の記事で解説していますので、合わせてご覧ください。
検定の手順
t分布を用いる点以外は、基本的に母分散既知の場合と同様です。
1.仮説を設定する
この例題では母平均に差があるかどうかを調べたいので、両側検定を行います。
$H_{0}:\bar{μ}=μ_{o}$
$H_{1}:\bar{μ}≠μ_{o}$(両側検定)
2.検定統計量を算出する
3.帰無仮説の棄却/採択を判定する
t分布表から確率$p=0.05$及び$p=0.01$となるt値を読み取ると以下のようになります。
エクセルの場合、t分布の両側逆関数を表すT.INV.2T関数を使えば、以下のように求めることもできます。
ちなみに、片側逆関数はT.INV関数で求められるので、必要に応じて使い分けましょう。
先ほどの検定統計量と比較すると、以下の関係であることが分かります。
5%の棄却域に入らない状態、つまり帰無仮説を棄却できないという結果となります。
4.検定の結論を導く
検定の結果から、今回の結論を出します。
「この製品の強度は100Nでないとは言えない」
まとめ
- 1つの母平均に関する検定統計量
⇒母分散が既知の場合:標準正規分布のZ値を用いる
母分散が未知の場合:t分布のt値を用いる - 検定の手順
⇒仮説を設定する
検定統計量を算出する
帰無仮説の棄却/採択を判定する
検定の結論を導く
最後まで読んでいただき、ありがとうございました。
コメント