二元配置分散分析の結果をどう解釈してアクションに繋げるかについてです。その中でP値が一番重要で、P値を理解するには「帰無仮説」という概念を知るのも必要です。そのP値と帰無仮説は分かり難いので図解で分かりやすく説明してます。
(動画時間:6:37)
ダウンロード ←これをクリックして「分散分析学習用ファイル」をダウンロードできます。
<< 分散分析シリーズ >>
第一話:分散分析とは?わかりやすく説明します【エクセルのデータ分析ツール】前編:結果を出すところまで
第二話:← 今回の記事
二元配置分散分析の結果の重要ポイントは?
こんにちは、リーンシグマ、ブラックベルトのマイク根上です。業務改善コンサルをしています。
前回の動画でエクセルのデータ分析ツールで二元配置分散分析の結果を出すところまでやりました。⇒「分散分析とは?わかりやすく説明します。【エクセルのデータ分析ツール】前編:結果を出すところまで」
簡単におさらいをすると、下図の左のデータはあるレストランで4つのフライドチキンの試作品を作り60人の人に試食してもらったスコアデータです。
データはクリスピーと普通の衣の二水準と辛口と普通味の二水準をもつ2要因からなるデータです。このフラットな表形式を右の様なクロス表形式に変換して二次元配置分散分析をします。
ちなみに今回のデータは「ハンバーガーショップで学ぶ楽しい統計学」のページから使わせて頂きました。ありがとうございました。こちらのサイトでは数式も含めてもっと詳しく学べます。とても分かりやすく、サイト名が言っているように楽しく統計学を学べます。⇒「ハンバーガーショップで学ぶ楽しい統計学」のサイトへ
エクセルのメニューで、「データ」、「データ分析」、「分散分析:繰返しのある二元配置」で結果を出しました。
沢山数値が出てきましたね。もちろん全ての数値の意味を理解しているに越した事はないですが、今日は実務で分散分析を使うのに最低限必要な情報をお伝えします。
この中の黄色でハイライトした部分が一番重要です。今回勉強用のエクセルファイルをご用意しました。同じ分散分析の結果が二つ入ってますが、右の表はエクセル関数で作ってあります。このエクセルファイルを後でダウンロードして各数値が何なのかをご確認下さい。⇒「分散分析学習用ファイル」をダウンロード
二元配置分散分析の「P-値」の解釈の仕方
上三つの表はそんなに難しくないです。難しいのは一番下の分散分析表です。もちろん深くこの表を理解できた方が良いですが、最低限AG列にある「P-値」をご理解下さい。
この「P-値」は回帰分析の動画でも出てきました。もう少し詳しく言いますと、P-値は帰無仮説の起こる確率です。P-値のPはProbabilityの略です。⇒「単回帰分析の結果の見方(エクセルのデータ分析ツール)【回帰分析シリーズ2】」
分散分析での帰無仮説とは「各要因のデータ群の平均が等しいと仮定すること」となります。今回の例ですと「4つの試作品のスコアに違いが無い」ということです。
一般的にこのパーセンテージが5%以下ならこの帰無仮説を棄却出来ます。言い換えると「平均が等しい」ことを捨てる、つまり「データ群の平均の違いがすごい有る」ということです。これを念頭に置いてさっきの分散分析を見てみましょう。
セルAB27に「列」とありますね。列ですから上の表の縦方向のクリスピーと普通の衣の事です。P-値は0.36で36%ですので5%以上ですので帰無仮説を棄却出来ません。つまりクリスピーだろうと普通の衣だろうとスコアに影響は無かったという事です。
一つ上の「標本」とは横方向の事で辛口と普通味についてです。そのP-値は0.08、つまり8%でさっきより帰無仮説になる確率は低いですが、5%より高いので辛口と普通味だけでスコアの違いがあったとは言えないのです。
最後にその下の「交互作用」を見るとP-値は0.01、つまり1%です。5%より低くて帰無仮説を棄却出来ます。ですので違いが無いとは言えない、つまり違いがあると言う事です。
二元配置分散分析をどう解釈し、実務に活かすか。
これを踏まえて各試作品の平均点を見てみましょう(下図参照)。辛口クリスピーチキンが一番点数が高いですね。
先ほど交互作用での違いがあることが分かってますので、中途半端に辛口にするだけとかクリスピーにするだけにするよりも辛口クリスピーにして売った方がいいという結論が出たわけです。
分散分析の制限
今回のデータは要因が二つで、各要因は二水準しかなかったので、分散分析とデータ群の平均を比べる事で水準間の優劣を判断できました。
しかし一要因に水準が3つ以上あると、比べる群間が3つ以上になり帰無仮説を棄却したとしても、「全データ群の平均値が等しいとは言えない」と分かるだけで、違いのあるデータ群間までは特定出来ないのです。
それでは一要因に水準が3つ以上あると分散分析は使えないのでしょうか?そうではないです。「データ群に違いが無いのを調べたい時」にこの分散分析を使う事が出来るのです。
それでも水準が3つ以上でどこに違いが有るかを調べたい時にはどうしたら良いのでしょうか?
エクセルのデータ分析ツールでは出来ませんが、多重比較法をエクセル関数でやる事は出来ます。しかし多重性とかの統計の高度な知識が必要となります。これに関してはリクエストがあればまた動画を作ります。
データ群を比べる検定の種類
今回の分散分析の話は難しいので表にまとめました。これは全てエクセルでやる場合です。
比べるデータ群が二つだけの時、つまり2水準の要因が一つだけの時はT検定が使えます。
一要因だけど水準が3つ以上の時は一次元配置分散分析が使えますが、これは違いの無い事を調べたい時です。
二要因で合計4水準の時は二元配置分散分析で調べられます。二要因で各要因の水準が三つ以上になる時はデータ群に違いが無いのを調べたい時に分散分析は使えます。
しかし詳細を知りたい時や三要因以上のときはやはり、多重比較法を使わなければいけません。
今回は難しい内容をかなり簡略化しています。統計の専門家の皆さんから違うご意見があるかもしれません。その時はコメント欄でご指摘をお願いします。そこで皆さんと議論を深めて行きたいと思います。
「こちらの記事も読まれてます。」