「二元配置実験のデータをエクセルで解析したい」
「エクセルのアドイン機能を使って手軽にやりたい」
「自力で関数を使って計算できるようになりたい」
このような悩みをお持ちの方に向けた記事です。
二元配置実験は二つの因子を変化させて特性値への影響を調べるための手法で、反復試行の有無によって種類が分類されます。
このうち繰り返しのある実験では、手間がかかるものの、各因子の主効果に加えて因子どうしの交互作用を調べることができ、特徴を押さえて覚えておきたい手法の一つです。
この記事では、繰り返しのある二元配置実験を対象として、エクセル関数を使ったデータ解析方法、アドイン機能を使った手軽な解析の方法の2種類について詳しく解説しています。
ぜひ最後まで読んで参考にしていただければ幸いです。
予備知識
この記事では、二元配置実験をExcelで行うにあたって、操作手順や使用する関数など、実際の操作に関する内容を詳しく説明しています。
そのため、実験計画法とは何か、繰り返しの有無による違い、交互作用の概念といった知識については、あらかじめ習得できていることが望ましいです。
これらは、以下の記事で詳しく解説していますので、合わせてご覧ください。
また、Excelのアドイン機能では、繰り返しのある場合とない場合の2種類のツールが用意されています。
基本的な操作はほとんど同じですが、それぞれ細かい手順が異なりますので、繰り返しのない実験のExcel解法を詳しく知りたい方は以下の記事を参考にどうぞ。
繰り返しのない方が簡単そうだし、そっちから始めようかな
アドイン機能を用いたデータ解析の方法
エクセルを使った二元配置実験のデータ解析のやり方としては、アドイン機能を使って手軽に行う方法と、関数を使って自力で解く方法の2つがあります。
まずは、簡単にできるアドイン機能を使った方法から紹介します。
手順
アドイン機能を有効にする
まず、Excelの設定をしましょう。
「ファイル」→「その他」→「オプション」を選択します。
「アドイン」→「設定」を指定し、「分析ツール」にチェックを入れて有効化します。
データをマトリックス状に入力する
次に、二元配置実験で得られたデータをマトリックス状に入力します。
二つの因子を行と列に配置して、その交差する箇所に特性値を入れます。
繰り返しデータは行を変えて入力し、例えば繰り返し数2回の場合、2段の行を使用します。
データ範囲と有意水準を設定する
次に、アドイン機能を用いて二元配置実験のデータ解析を行います。
「データ」タブの「データ分析」をクリックし、「分散分析:繰り返しのある二元配置」を選択します。
入力範囲に特性値のデータ範囲を設定します。
注意点としては、特性値の範囲だけでなく、因子の水準ラベルも含めた範囲を選択することです。
1標本あたりの行数には、実験の繰り返し回数を入力します。
また、F検定の有意水準として$α$を設定します。
デフォルトでは、0.05(5%)が設定されています。
最後に結果の出力先を設定したら、「OK」を押して完了です。
結果の見かた
各項目の意味
それでは、得られた結果が何を意味するのか、見ていきましょう。
まず、「概要」で示す表は見て分かる通り、基本統計量が算出されています。
ここで示す「分散」は、標本データから求めた不偏分散を意味します。
ここまでは、わざわざアドイン機能を使わなくても簡単に求められますね。
次に、本題の「分散分析表」を見てみましょう。
「変動要因」の「標本」は行に配置した因子、「列」は列に配置した因子を表します。
また、「交互作用」は因子どうしの交互作用、「繰り返し誤差」は全変動から水準間変動を差し引いた誤差成分を意味します。
「変動」は偏差平方和(平均値と各データの差分の平方和)のことを表します。
水準間変動、水準内変動、全変動の定義と求め方は次のようになります。
水準間変動$S_{A},S_{B}$:(全体の平均と水準の平均との差)の二乗和
水準間変動$S_{AB}$:(全体の平均と組合せ水準の平均との差)の二乗和
交互作用$S_{A×B}$:組み合わせ条件の変動のうち、主効果で説明ができない残りの成分
水準内変動$S_{e}$:(各データと水準内平均との差)の二乗和
全変動$S_{T}$:(各データと全体平均との差)の二乗和
全変動$S_{T}$=水準間変動$S_{A}$+水準間変動$S_{B}$+交互作用$S_{A×B}$+水準内変動$S_{e}$
交互作用は繰り返しのある実験で一番大切な部分だね
また、自由度、分散、観測された分散比は、次のように求められます。
観測された分散比がF検定での検定統計量となります。
結果の判定
アドイン機能では便利なことに、F検定の検定結果まで計算してくれます。
その判定指標となるのが「P-値」と「F境界値」です。
P値は先ほど求めた検定統計量(観測された分散比)に該当する確率のことであり、分散比が大きいほど値が小さくなります。
つまり、今回の例でいうと、水準間変動が大きいとは言えない確率が「標本」因子の場合0.002(=0.2%)しかなく、裏を返すと水準間の影響が十分に大きいと判断できるのです。
判定の基準としては一般的に5%や1%を用いるので、これより値が小さければ、水準の違いがあると考えて良いでしょう。
なお、「F境界値」というのは、最初に設定した有意水準に該当するF値であり、今回の場合は5%に相当する値が出力されています。
分散比がこれよりも大きい値なので、F境界値と分散比の大小関係からも有意性を判断することができます。
エクセル関数を使ったデータ解析の方法
次にエクセル関数を用いて自力で計算をする場合の手順を説明します。
アドイン機能を用いれば簡単に答えを出せますが、その反面どのような計算から導き出されたものか理解しないまま使ってしまう恐れがあるので、応用が利きません。
計算自体は複雑なものではないので、一度は自力で計算してみることをおススメします。
手順
「概要」の表で出力される項目は、いずれも基本的な関数ばかりなので詳細は割愛します。
次に「分散分析表」ですが、まずは全変動と水準間変動の偏差平方和を求めるところから始めます。
全変動に関しては便利な関数があり、DEVSQ関数を用いて全データ範囲を指定すれば、偏差平方和を一発で求めることができます。
水準間変動と交互作用については関数がないので、自力で求めるしかありません。
ここで、先ほど説明した定義の式を一つずつ計算していては大変な労力がかかってしまいます。
そこで、以下の変換式で計算を簡略化します。
CTで示す項は修正項と呼び、特に電卓で計算が必要な場合などは重宝するので、必ず覚えておきましょう。
ここで、交互作用$S_{A×B}$を求めるための組合せ水準の偏差平方和$S_{AB}$の計算には、もう一手間が必要です。
次のように、水準の組み合わせごとの合計値を別で計算しておくと、偏差平方和をシンプルな式で計算できます。
少し面倒ですが、関数の式はできるだけスッキリした方が後で見たときに理解しやすいので、ぜひお試しください。
水準内変動については、全変動から水準間変動を引けば求められます。
この計算を乗り越えれば、あとはもう一息
自由度、分散、観測された分散比は、先ほどにも説明した通り関数を使わずに単純な計算で求められます。
次にP-値ですが、これはF分布の上側(右側)確率を返すF.DIST.RT関数を用いれば、あとは分散比と自由度を入れるだけで求められます。
また、F境界値はF分布の上側逆関数を返すF.INV.RT関数を用いれば、有意水準と自由度を入れて求められます。
今回の場合、有意水準を0.05としています。
これで、アドイン機能と同じ表を関数計算で作ることができました。
信頼区間の求め方
最後に信頼区間の求め方を紹介しておきます。
実験データから得られた平均値はあくまで標本平均であり、母集団の平均値(母平均)の推定値に過ぎません。
そのため、母集団の平均値には推定の「幅」があり、例えば信頼度95%で○○~△△の範囲に収まるといった表現をします。
二元配置実験では、次の計算式から信頼区間を求めることができます。
水準内変動の自由度と信頼度に対応するt値、水準内変動の不偏分散から計算でき、エクセルの関数を用いて計算すると次のようになります。
T.INV関数はt分布の逆関数を返す関数で、区間の信頼度と自由度から求められます。
残念ながら、信頼区間はアドイン機能では計算してくれませんので、自力で導出するしかありません。
ただ、計算自体は複雑なものではないので、計算式だけ覚えておけば特に問題ないことと思います。
まとめ
自力で計算するのに使える主なエクセル関数を整理しておきます。
- COUNT関数:データの個数
- SUM関数:総和
- VAR.S関数:不偏分散
- DEVSQ関数:偏差平方和
- F.DIST.RT関数:F分布の上側確率
- F.INV.RT関数:F分布の上側逆関数
- T.INV関数:t分布の逆関数
- SQRT関数:平方根
最後までご覧いただきありがとうございました。
数式の苦手な方でも安心の入門編。
回帰分析、検定、実験計画法まで幅広く、エクセルを用いた実践方法も習得したい方に。
乱塊法、分割法もお任せ! QC検定1級の教材としてもおススメ。
コメント