アンダーソン・ダーリング検定をエクセルでやる方法、P値を求められる正規性の検定 【正規性検定②】
この記事では観測データがどの程度正規分布に従っているかをP値を出して判断ができるアンダーソン・ダーリング検定をエクセルでやる方法をステップバイステップでご紹介します。エクセルでこの検定ができる様になります。
(動画時間:7:44)
エクセルでもできるアンダーソン・ダーリング検定
こんにちは、リーンシグマ、ブラックベルトのマイク根上です。
業務改善コンサルをしています。
前回の動画で、観測データからQQプロットをエクセルで作成して、
それが直線であるかないかで正規性を判断しました。
⇒「QQプロットのエクセルでのやり方:正規性の確認ができる【正規性検定①】」
上図がそのQQプロットですが、QQプロットだと
数値的にどの程度正規性があるか、ないかまでは分かりません。
正規性を判断できる検定方法はいくつかありますが
その中でエクセルでできて、更に実務でも使えるのが
アンダーソン・ダーリング検定なのです。
観測データから正規性に関するP値を出して
数値的に正規性を判断できます。
今日はそれをエクセルでやる方法を
ステップバイステップでご紹介します。
最初にその解説をしますが、
もし直ぐにエクセルでやる方法をお知りになりたい方は
後の章に飛んで下さい。
アンダーソン・ダーリング検定の帰無仮説と、P値の解釈方法
このアンダーソン・ダーリング検定は
1952年にアンダーソンと言う人とダーリングと言う人が
共同で発表した検定方法です。
検定ですから最初に帰無仮説を立てる必要があり、
この検定の帰無仮説は
「観測データが正規分布に従っている」となります。
通常、帰無仮説を立てる時「従っていない」などの
否定語になる場合が多いですが、
今回は肯定語で「正規分布に従っている」になるのがポイントです。
正規性に従っているパターンは一つしかないのですが、
従っていないパターンは多数あるからです。
次にアンダーソン・ダーリング検定量、ADを求めます。
その数式が次です。
難しそうですが、ここで深く理解する必要はありません。
後で分解してエクセルで計算するので、
その時に理解できるからです。
また、この数式がどうやって導かれたかまでを
理解する必要もありません。
この検定方法が発表されて今までの頭の良い方達が
間違いないと確認されてきたからです。
僕達はその方達に感謝して、
結果を使って実務に活かしていけば良いのです。
この検定量「AD」を求めて
最終的に帰無仮説が起こる確率P値を求めますが、
このアンダーソン・ダーリング検定では
P値の解釈の仕方が他の検定とちょっと違います。
P値は帰無仮説が起こる確率で、
通常このP値が0.05(5%)以下なら良いと考えられますが、
この検定では、もし0.05以下ですと、
帰無仮説が「観測データが正規分布に従っている」ですので、
帰無仮説が起き難いので、
「観測データが正規分布に従っていない」となります。
ですから、P値が0.05より上だと帰無仮説を採用して
「観測データが正規分布に従っている」となるのです。
この点に注意して、エクセル上でアンダーソン・ダーリング検定をやってみましょう。
エクセルでアンダーソン・ダーリング検定量の求め方
上図内B列が今回の観測データです。
C列内でデータ数、平均、標準偏差を求めています。
次に連番を振り、F列内でSMALL関数を使って
データを小さい順に並べ替えています。
セルF8内
=SMALL($B$8:$B$38,D8)
SMALL(データの範囲,順位)
ここでさっきの検定量「AD」の数式を見てみましょう。(上図内上部)
この中の「F(Xi)」は各データの正規分布の確率密度で
平均と標準偏差から「NORM.DIST」関数で求められます。
セルG8内
=NORM.DIST(F8, $C$9, $C$12,TRUE )
NORM.DIST(観測データ, 平均, 標準偏差,TRUE )
次にI列で「1 – F(X n-i+1)」(1-確率密度)を計算します。
その前にH列で下準備をします。
「F(X n-i+1)」内のXの下文字の「i」は連番の事で、
「n」はデータ数、この例では31が入ります。
すると最初のデータ(セルH8)では「31-1+1=31」で、
観測データ「X31」となるので、一番最大の観測データが必要です。
結局この列(H列)では大きい順に並べ替えをした観測データを入れるので、
それにはLARGE関数が使えます。
セルH8内
=LARGE($B$8:$B$38,D8)
LARGE(データの範囲,順位)
そしてI列で、さっきの「NORM.DIST」関数で
「1ー確率密度」を計算します。(上図セルI8参照)
セルI8内
=1-NORM.DIST(H8, $C$9, $C$12, TRUE)
NORM.DIST(観測データ, 平均, 標準偏差,TRUE )
次にJ列で、総和シグマ内の計算式を計算します。
この時に前に求めた二つの確率密度(G列とI列)を使い、
LN関数で各確率密度の自然対数を求めます。
セルJ8内
=(2*D8-1)*(LN(G8)+LN(I8))
LN(数値):引数の数値の自然対数を返す。
この式を下までオートフィルして、
全て足したらこの総和シグマを求めたことになります。
そして「ーデータ数ー1÷データ数 × 総和シグマ」で
アンダーソン・ダーリング検定量ADが求まるのです。(上図内セルJ41参照)
その結果が「1.0479」となりました。
セルJ41内
=-C6-1/C6*SUM(J8:J39)
ここでもう二ステップ必要です。
エクセルでアンダーソン・ダーリング検定量からP値を求めて正規性を確認する
この検定量ADを求めるのに
もちろん観測データ、サンプルを使っていて、
全データの母集団ではありません。
その時にADを次の式で補正する必要があります。
この中のnもデータ数で、その補正ADをセルJ49で求めました。
するとその結果が「1.0757」となりました。
セルJ49内
=J41*(1+0.75/C6+2.25/C6^2)
これでついに帰無仮説が起こる確率P値を求めらるのですが、
次の表の様にそのP値を求める計算式が補正ADによって変わります。
今回は補正ADが0.6以上なので最後の式を使います。
このEXP関数はさっきの自然対数を求めるLN関数の逆の働きをする関数です。
これで求めたらP値は「0.008」となりました。
セルJ62内
=EXP(1.2937-5.709*J49+0.0186*J49^2)
このP値が0.05以下なので
「観測データが正規分布に従っている」
という帰無仮説を棄却するので、
「観測データが正規分布に従っていない」となるのです。
上図が前回の動画でこの観測データで作ったQQプロットで
右肩上がりの一直線でないし、
今回の検定ではっきりとこの観測データは
正規分布に従っていないのが分かりました。
前回の動画のシナリオで言うと、
観測データが正規分布に従っていないので、
管理図でこのデータは使えません。
⇒「QQプロットのエクセルでのやり方:正規性の確認ができる【正規性検定①】」
そこで次にできる事は観測データをもっと増やすか、
データの補正をする事です。
その補正をするのにBox Cox変換という手法があります。
それをエクセルでやる方法を次の動画でやってみたいと思います。
<< 正規性検定シリーズ >>