分割表による独立性の検定を例題で解説 ~統計的検定(その12)~

統計的検定

※当サイトは、アフィリエイト広告を利用しています

この記事では、分割表による独立性の検定について記載していますので、参考なればうれしいです。

独立性の検定は、この記事で完結して解説していますが、統計的検定の概念とメリット、登場する用語の意味など、その1から段階を追って説明しています。

さまざまな検定の種類を網羅的に学習したい方は、ぜひ最初から読んでみてください。

仮説検定の考え方、帰無仮説・対立仮説を基礎から理解しよう ~統計的検定(その1)~
統計的検定とは、母集団に関して立てたとある仮説が成立するか否か、背理法の考え方を用いて標本データから確率論的に結論を導き出す検定のことです。この記事では、統計的検定の概念とメリット、登場する用語の意味、検定の大まかな手順について解説しています。

分割表とは?

まず、分割表という聞き慣れない言葉から不安を感じるかもしれませんが、百聞は一見に如かず、ということで具体例から示します。

「なんだ、よく見かける二元表じゃないか」と感じた方も多いと思いますが、まさにその通りです。

行と列に変数の項目を取り、これらの交差する箇所に計数値の集計結果を記載したものを分割表(クロス集計表)と呼びます。

m行、n列の分割表のことを「m×n分割表」と表現し、先ほどの例では3×2分割表ということになります。

独立性の検定とは?

次に、独立性の検定について説明します。

分割表において、変数どうしの関連性がないことを「独立」と表現します。

例えば、先ほどの分割表で学校ごとの男女比率に違いがあるかどうか考えてみましょう。

分割表を見て、どの学校も男性比率の方が高いことは何となくわかると思います。

ただ、この微妙な違いが学校ごとの違いの影響があるのか、それとも学校によらずこの学部では共通的に男性比率が高いのか、数字を眺めているだけでは判断が付きません。

これを統計的に定量値で判断するための手段として統計的検定が用いられ、独立性の検定と呼ぶのです。

独立性の検定の手順

検定統計量

独立性の検定では、適合度検定と同じくカイ二乗分布の考え方を使います。

適合度検定の解説記事を既にご覧いただいた方は、「検定の手順」まで読み飛ばしていただいて構いませんが、あらためて軽くおさらいをしておきます。

「カイ」は記号で「$χ$」と表され、以下の数式によって定義されます。

ここで、$Z_{1}~Z_{n}$は標準正規分布に従う互いに独立な確率変数を表します。

標準正規分布とは、正規分布において平均値$μ$を0、標準偏差$σ$を1として基準化したもので、$N(μ,σ^{2})$は$N(0,1)$と表記されます。

この$χ^{2}$が従う確率分布のことをカイ二乗分布と呼び、自由度$n-1$のカイ二乗分布に従うと表現されるのです。

確率変数の二乗和が従う分布なので、すなわち、「ばらつき」「分散」に関わる確率を求める場合に活用され、まさに適合度検定や独立性の検定の目的に合致した手法なのです。

以下の記事も合わせてご覧ください。

カイ二乗分布とは? 活用の用途、エクセル関数の使い方を解説
カイ二乗分布とは、標準正規分布N(0,1)を基にした確率変数の二乗和が従う確率分布のことです。この記事では、カイ二乗分布の定義と性質、活用の用途、期待値と分散の導出の仕方、エクセルやカイ二乗分布表から確率を求める手順について解説しています。
母分散の検定を例題で解説 ~統計的検定(その3)~
1つの母分散に関する統計的検定を行う場合、標本の不偏分散と母分散から求めたカイ二乗値を検定統計量に用います。この記事では、母分散の検定について、帰無仮説と対立仮説の設定のしかた、検定統計量の計算方法、検定手順を解説しています。
適合度検定を例題で解説 ~統計的検定(その11)~
適合度とは、ある観測値の構成比率の理論値が既知の場合において、実際に観測した値との合致する度合いのことで、カイ二乗検定により有意性を判定することができます。この記事では、適合度検定について、帰無仮説と対立仮説の設定のしかた、検定統計量の計算方法、検定手順を解説しています。

検定の手順

先ほどの分割表を用いて、実際に独立性の検定をやってみましょう。

1.仮説を設定する

まずは、検証したい目的に合致した帰無仮説$H_{0}$と対立仮説$H_{1}$を設定します。

学校ごとの男女比率に違いがあることを背理法で証明したいので、帰無仮説を「$H_{0}$:学校ごとの男女比率に違いはない」と設定します。

また、対立仮説は本来の目的である証明したい仮説として、「男女比率に違いがある」とします。

$H_{0}$:男女比率に違いはない(行と列は独立である)
$H_{1}$:男女比率に違いがある(行と列は独立でない)


2.検定統計量を算出する

カイ二乗値の定義に従い、検定統計量を求めます。

まずは、学校ごとの影響がないものとして、男女比率の期待度数を出します

考え方は単純で、A校からC校の違いをいったん無視して、合計値から理論比率を算出します。

今回の例では21:9となり、つまり100パーセント比率に直すと70:30が期待度数ということになります。

次に、A校からC校の実際の観測値と期待度数とのずれを求め、すべての表の欄のずれ量を合算すると、検定統計量であるカイ二乗値が計算できます。



3.帰無仮説の棄却/採択を判定する

検定統計量の値から帰無仮説の棄却/採択を判定します。

ここで用いる自由度は、$φ=(m-1)×(n-1)$で求められ、今回の場合は2となります。

判定のしかたは、母分散の検定と同じくカイ二乗表、またはエクセル関数(CHISQ.INV関数)を用いて閾値(しきい値)との大小関係を見ます。

これも適合度検定と同様に、片側検定で上側確率を判定の対象とします。

今回の場合、有意水準$α=0.05$における棄却判定値は次のように読み取ることができます。

先ほどの検定統計量と比較すると、以下の関係であることが分かります。

帰無仮説棄却できず採択されます。



4.検定の結論を導く

検定の結果から、今回の結論を出します。

「学校ごとの男女比率に違いがあるとは言えない」

まとめ

  • 分割表(クロス集計表)
    ⇒行と列に変数の項目を取り、これらの交差する箇所に計数値の集計結果を記載した表
  • 独立性の検定
    ⇒分割表において、変数どうしの関連性がない(独立である)ことを検定統計量で定量的に調べる手法
  • 検定の手順
    ⇒仮説を設定する
     検定統計量を算出する
     帰無仮説の棄却/採択を判定する
     検定の結論を導く

最後まで読んでいただき、ありがとうございました。

スポンサーリンク
統計的検定
Follow
この記事を書いた人

【経歴】
関東在住、40代、製造業(品質部門)。
これまで、研究開発、設計、生産技術、仕入先の品質管理を手掛ける。

【保有知識・技術分野】
統計学、信頼性工学、品質工学。
半導体、基板、有機材料、金属、セラミックスの材料、製造、加工技術。
部品加工(機械加工、化学処理)、組立・実装技術、分析・物理解析技術。
QC検定1級保有。

【当サイトについて】
品質・生産の基礎知識をテーマに、用語の解説、使い方(作り方)、メリット、考え方のポイントを分かりやすく解説しています。
某メーカ様の品質教育用の資料としてもご活用いただいております。
QC検定(品質管理検定)の試験対策、おすすめ勉強法も紹介しています。

Follow
QCとらのまき

コメント