T検定とF検定はエクセルでもできます。T検定は二つのデータ群の平均を比べるのに使い、F検定はそのT検定の結果を出す過程で使われます。易しい言葉で仕事でどう使えるのか、どのエクセル関数を使うのかを書いてます。
(動画時間:6:24)
T検定とF検定とは?
こんにちは、リーンシグマブラックベルトのマイク根上です。業務改善コンサルをしています。
今回はこの動画リクエストを頂きました。
「下記のテーマについてビデオ作成していただけませんでしょうか。データ検定(T−検定、F−検定)」
Tung Vuさん、リクエストありがとうございます。今回は統計の難しい話題ですが、易しい言葉で仕事でどう使うのかにフォーカスして書きます。
データ検定の種類は沢山ありますが、その中のT検定は一番便利で使う用途が多いです。この場合、F検定はそのT検定の結果を出す過程で使われます。
T検定は二つのデータ群の平均を比べるのに使います。例えば、販促キャンペーンをやる前と後のデータを比べてその効果を調べたり、二つの製造ラインの品質を比べたり出来ます。
おそらく「平均を出して比べるだけなら簡単でしょ。」と思った方もいたでしょう。しかし、平均値は異常値が大きく影響したりして、ミスリードをする事が多々あります。本質的な違いが有ったのかこのT検定で科学的に調べる事が出来ます。論より証拠で実際にエクセル上でやってみましょう。
T検定のエクセル関数:T.TEST関数の使い方
ある販促キャンペーンを実施し、上図がその前と後の営業員の売上データです。AVERAGE関数で平均を出したら実施後の方が平均は高いです(セルD16参照)。キャンペーンは成功したと判断して良いのでしょうか?T検定で確かめます。
そのエクセル関数はT.TEST関数です。「=T.TEST(」とタイプすると引数の説明が出てきます。最初の配列1、配列2は比べるデータを選びます。最初のデータの範囲をマウスで選びカンマを入れ、次のデータの範囲を選びカンマを入れます。
三つ目の「検定の指定」で、片側分布なら1、両側分布なら2を入れます。これは行う検定のご自分の目的によります。今日は詳しくは話しませんが、多くの場合両側分布の2を入れるでしょう。
最後の引数は「検定の種類」です。これは使うデータの状況によります。後でまた説明しますがここでは「対」の1を入れます。 括弧を閉じてエンターキーを押すと0.660と出てきました。出てきた値はP値と呼ばれます。
T検定の結果のP値の解釈の仕方
この値には難しい統計的な意味が沢山あるのですが、ざっくり結論を言うと選択した二群のデータに違いが無い確率を表します。つまり今回の0.66と言う結果は66%の確率で二群のデータに違いが無いと言っているのです。ここでは販促キャンペーンの効果を見たいわけですが、66%の確率は本質的な違いがあるのでしょうか、無いのでしょうか?
一般的にP値が5%以下なら有意な違いが合ったと判断出来ます。つまり「違いの無い確率」が低いから「違い」があった、という意味です。その時はキャンペーンの効果があった事になるのです。
しかし今回は66%で違いの無い確立が高いのでキャンペーンの効果は無かったと言う結論です。これで答えが出ました。難しい計算は全てエクセルがやってくれますので出てきた値の解釈の仕方はしっかり学んで下さい。
F検定を使う理由
一つ重要な事が残っています。関数内の最後の引数の「検定の種類」です。さっきは1の「対」を選びました。使ったデータ群が各営業員のキャンペーン実施前と後の対のデータだったからです。
これが例えば支店Aと支店Bの売上を比べるとすると営業員は別々でどの数値も対になる事はありません。この時は対でない2の「等分散の2標本」か3の「非等分散の2標本」を選ぶのです(上図参照)。分散とはデータのバラツキ度合です。ちなみにこの場合はデータ数は同じである必要はありません。
二つのデータ群が同じ様なバラツキなら2を、そうじゃなければ3を選ぶのです(上図参照)。では、どうやってそれを判断しましょうか?ここで今日のもう一つのテーマのF検定を使うのです。
エクセルではF.TEST関数を使います。括弧まで入れて引数の構造を見ると、比べる二つのデータ群を選ぶだけです。
F検定の結論
それらを選ぶと0.104と出ました。この結果もP値と呼び、各分散に差が無い確率が10.4%と言う意味です。これも先ほどと同じで5%以下にならないと差があるとは言えません。ですから今回は等分散です。
先ほどのT.TEXT関数に戻って等分散の2を選びます。出て来た数値は5%以下にならないですので、この場合でも二つのデータ群の平均は統計的には意味のある違いは無いと言う事です。
今日のT検定とF検定のまとめ
まとめると、2つのデータ群を比べたい時:
- データを用意する。
- 片側分布か両側分布かを決める。
- データは対のデータかどうかを確認する。
- もし対のデータでなければF.TEST関数を使って等分散かどうかを確認する。
- これらの情報をT.TEST関数の引数に入れて結果が5%以下ならデータ群に意味のある違いがある事になるのです。
今日はT検定とF検定の実務的な部分だけを取り上げました。基礎の部分はエクセルに任せたんですが、検定や統計の基礎も勉強するのをお勧めします。
「こちらの記事も読まれてます。」