分散分析とは?わかりやすく説明します【エクセルのデータ分析ツール】前編:結果を出すところまで
分散分析は複数のデータ群の平均を比較/分析する事でそのデータ群に意味のある違いがあるかを見ます。この記事では分散分析の基本と一元配置と二元配置分析の違いを説明し、エクセルのデータ分析ツールの二元配置分析の仕方を解説しています。
(動画時間:6:14)
<< 分散分析シリーズ >>
第一話:← 今回の記事
第二話:二元配置分散分析表の結果の解釈の仕方 後編:P値の見方
分散分析の基本とT検定との違い
こんにちは、リーンシグマ、ブラックベルトのマイク根上です。業務改善コンサルをしています。
今日もこの動画リクエストからです。
「今度試験があるので、一元配置分散分析、二元配置分散分析についての動画があったらみてみたいです!」
あやさん、リクエストありがとうございました。
最初に一つお断りをします。僕の統計の動画では細かい数式の話は割愛して実務でどう使うかが主題である事をご了承下さい。
一元配置、二元配置の違いの前に分散分析の基本を話します。名前が分散分析だから分散を分析するのかと思いきや、複数のデータ群の平均を比較/分析します。
英語ではAnalysis of Varianceで略してAnovaとも呼ばれます。この日本語訳は「分散分析」ともとれますが、どちらかというと「不一致分析」です。不一致さを分析するのでこっちの方が的を射てますが、日本語に訳す時に分散分析の方を取ってしまったんですね。
話がそれましたが、分散分析は複数のデータ群の平均を比較/分析する事でそのデータ群に意味のある違いがあるかを見ます。
例えば、複数の支店で販促キャンペーンをやる前と後のデータを比べてその効果を調べたり、製造ラインの品質を比べたり出来ます。
実はこれと同じ様な説明を以前作ったT検定の動画でも言っています。T検定は二つのデータ群を比べる時に使いますが、実はそれ以上になると使えないのです。そこで分散分析を使うという事です。⇒「T検定とF検定の実務での使い方【エクセル関数】」
「要因」と「水準」の意味と一元配置と二元配置の違い
ここからは実際のデータを例にして説明します。上のサイトは「ハンバーガーショップで学ぶ楽しい統計学」というサイトで、本当に楽しく統計を学べます。
今日のサンプルデータは全てこのサイトからお借りしました。次にリンクをはっておきましたのでもっと数式の入った詳しい説明がほしい方はそちらを参照して下さい。⇒「ハンバーガーショップで学ぶ楽しい統計学のサイト」
分散分析では「要因」と「水準」という言葉は覚えて下さい。上記の左の表ではデータ群が三つですが、違いはお店の違いだけです。
「お店」というカテゴリを「要因」と呼び、各お店を「水準」と呼ぶのです。ですからこのデータは要因が一つで水準が三つあるデータという事になります。
次に上記の右の表を見て下さい。今度はデータ群が四つあります。シナリオとしてはチキンの試作品を4つ作り、街に出て60人の人に試食してもらい100点満点で点数をつけてもらったのです。
「クリスピー」か「普通の衣」かという「食感」という要因と、「辛口」か「普通味」の「味付け」という要因があります。つまりそれぞれ二つの水準をもった要因が二つあるデータだと言う事です。
左の要因が一つだけのデータを分析する時は「一元配置分散分析」を使い、右のデータは要因が二つなのでそれを分析する時は「二元配置分散分析」を使います。
繰り返しのある二元配置分散分析をエクセルのデータ分析ツールでやってみる。
エクセルのデータ分析ツールでこの分散分析を簡単に行う事が出来ます。先ほどのチキンのデータを使い、4つの試作品で統計的に点数の差があるのか、どの試作品の一番点数が高いのかを知るために二元配置分散分析をやってみます。
エクセルのデータ分析ツールでは上記左の様なフラットな表形式から右の様な行列のあるクロス形式にする必要があります。
「データ」から右側にある「データ分析」のボタンをクリックします。もしこのボタンが見えない時はエクセルアドインで準備をする必要があります。次の画面で「分散分析:繰り返しのある二元配置」を選び「OK」を押します。
「入力範囲」で列名、行名も含めたデータ範囲を選択します。「1標本当りの行数」で、ここでは辛口と普通味でデータが15個ずつあるので15と入れます。「出力オプション」で「出力先」をクリックして好きな場所を選んで「OK」を押すとすぐに分析結果が出てきます。
ちなみにデータ分析ツール内にもう一つ「繰り返しのない二元配置」がありますが、これは‘交互作用’が無いのが分かっている時に使います。
「交互作用」とは今回の「辛口クリスピー」みたいに二つの要因が合わさって、より強い、またはより弱い作用が起こる事です。ですので、交互作用が全く無く、各要因が互いに独立している時に「繰り返しのない二元配置分散分析」を使うのです。
しかし、実務では交互作用があることの方が多いので「繰り返しのある二元配置」を多く使うでしょう。分散分析の長所は実はこの交互作用を分析する事が出来ることにあるのです。その特徴を考えて使って下さい。
もう一つ、要因が三つ以上ある時はどうするのでしょうか?残念ながらエクセルのデータ分析ツールでは出来ません。二つまでです。(多重比較法をエクセル関数を使ってやる事は可能ですが、統計の高度な知識が必要になります。)
今回は分散分析をエクセルの分析ツールを使って結果を出すところまでやりました。次回の記事ではその出てきた結果をどう解釈してアクションにつなげるかをやります。⇒「二元配置分散分析表の結果の解釈の仕方 後編:P値の見方」
<< 分散分析シリーズ >>
第一話:← この動画
第二話:二元配置分散分析表の結果の解釈の仕方 後編:P値の見方
「こちらの記事も読まれてます。」