標準偏差(シグマ)とは何か?標準偏差のエクセル関数が沢山あり過ぎ

この記事では標準偏差とは何で、なぜ必要なのか、また母集団と標本の違いをエクセルシート上で分かり易く説明しています。また、標準偏差のエクセル関数がいくつもありますが、この記事でどれを使えば良いかが理解出来ます 。

標準偏差(シグマ)とは何か?標準偏差のエクセル関数が沢山あり過ぎ

(動画時間:7:44)

 

標準偏差の前の偏差とは? つまり「平均-測定値」

 

こんにちはリーンシグマ、ブラックベルトのマイク根上です。

 

あるビューアさんからこういうメールを頂きました。

 

Video Request Mail in Jpn

「シグマ値とその計算方法についてのビデオを作ってくれないか?」

 

Rehamリクエストありがとう。僕達はシックスシグマをよく口にしますが、シグマを本当に理解しているのでしょうか?シグマとは統計学で標準偏差の事です。でわ、シックスシグマとは標準偏差の6倍の事なのでしょうか?今日はこれを深く理解してみましょう。

 

今回の動画を作るのに僕の知り合いでマスターブラックベルトの津吉 政広さんにご協力を頂きました。津吉さんのブログでリーンシックスシグマをもっと深く学べます。⇒「マスターブラックベルト、津吉政宏氏のブログサイト」

 

ある部品の製造工程で、昨日と今日で5個ずつサンプルして長さを測定したとしましょう。昨日と今日の結果を比べたい時どうしましょうか?まずは平均を調べるでしょう。全ての数値を足してその個数で割ったら出てきます。ここで困った事が起きました。測定データは全く違うのですが昨日と今日の平均が全く同じになったのです。状況をグラフ化したのがこれです。今日のデータの方がバラツキが大きそうです(下図参照)。

 

偏差を表すグラフ

 

このバラツキ具合を数値化したのが標準偏差なのです。僕らのリーンシグマではバラツキを最小限にして品質を一定に保つことが大事なのでこの標準偏差がとても重要となるのです。

 

それではこのバラツキ具合をどう計算しましょうか?最初に考えたのが各数値の平均との差を全て足すことです。しかしプラスとマイナスがあり、その合計はいつも0になります。残念ながらこれじゃ意味がないですね。

 

その平均との差を偏差 [=平均-測定値] と言いますがその偏差を常にプラスにする方法が二つ有ります。一つはその偏差の絶対値、つまり各数値の平均からの距離を全て足してそのデータ数で割った数です。もう一つの方法は偏差を二乗します。

 

標準偏差=分散の平方根、なぜ平方根するの?

 

二乗する[=偏差^2] といつもプラスになりますね。それを全て足してデータ数で割った数字を分散 [=SUM(偏差)/データ数] と言ってこれも統計学ではよく使われます。今回は説明を省きますが、この分散を使った方が色々と都合が良いのでこっちが採用されました。昨日の分散が0.006で今日が0.034でした。

 

標準偏差の計算方法

 

しかし分散は数値を二乗してますので単位が変ってしまいます。今回はcmの長さから平方cmの面積に変ってしまってます。ですので分散の平方根をとって [=SQRT(分散)] 単位をcmに戻しています。これが標準偏差なのです。 昨日の標準偏差が0.08 cmで今日が0.185 cmでした。今日の方がバラツキが大きいのが数値的に確認出来ました。

 

いくつもある標準偏差のエクセル関数。どれを使う?

 

これで標準偏差の概念をしっかりイメージ出来ましたか?でしたら具体的な計算はエクセルに任せましょう。

 

標準偏差は英語でStandard Deviationと言います。エクセルのセルにその略のと入れるとなんと沢山関数が有ります。エクセル2010以降を使っている人はSTDEV.P関数かSTDEV.S関数を使って下さい。それより前のエクセルではSTDEVPかSTDEVです。STDEV.P関数の最後のPはPopulationの略で、英語で母集団を意味し、ここにも「母集団全体であると見なして」と書いてありますね。

 

STDEV.P関数(標準偏差)

 

もう片方のSTDEV.SのSはSampleの略で標本を意味し、「標本に基づいて」と書いてあります。

 

STDEV.S関数(標準偏差)

 

「母集団」と「標本」の違いは何?エクセル関数も違ってくる。

 

この二つの違いがまた標準偏差を難しくしています。今回のデータは5個ずつだけですが、実務では沢山部品を作りますね。例えば毎日100個の部品を作るとして、正確に全ての長さを計って標準偏差を計算したら正確です。これを全数検査と言います。しかし時間もコストもかかります。

 

ですから無作為にサンプル、つまり標本をとってそれを便宜上全体を反映しているとみなす標本検査をするわけです。この時はSTDEV.Sを使うし、最初の全数検査の時は母集団になるのでSTDEV.Pを使うわけです。ちなみにさっきの例ですとSTDEV.P関数を使うと最初の計算結果と同じになります。STDEV.Sを使うと昨日は0.089で今日は0.207 となり両方とも少しバラツキが増えることになります。

 

この関数では分散を求める時に各偏差を二乗したのを合計し、データ数で割るのではなく、データ数マイナス1で割っているのです。

 

標本標準偏差の計算方法

 

少ない数で割ってますので結果は少し大きくなるわけですが、母集団は標本より数が多いので母集団のバラツキは標本のそれよりも大きくなるのは容易に想像できますね。統計的に根拠が少しありますが、大雑把に言うと標本で標準偏差を求める時はデータ数マイナス1 でいこうと昔の賢い人達が決めたのです。要は、全数検査以外はサンプル用の STDEV.S を使うと覚えて下さい。

 

「シグマ」、「工程でのシグマ値」、「シックスシグマの由来」は何?

 

これでやっと質問者のシグマ値の話が出来ます。例えば今日のデータで3シグマとは3x標準偏差で0.621 cmです。しかしこの製造工程の3シグマ値は何と聞かれたら平均 ±3シグマで 8.56 ± 0.621になり7.939から9.181 の間となるわけです。

 

工程での3シグマ値

 

これは一般的に管理図を書く時の上限管理線と下限管理線に使われます。

 

管理図上の上下限管理線

 

ちなみにモトローラが開発したシックスシグマの名前はシックスシグマを目指すところから来ています。しかし前述のシグマ値とは違います。6シグマ値は平均 ±6シグマで7.318から9.802 cmの間という意味で、「それじゃぁ、3シグマ値より簡単だよね」と思って混乱する方もいるでしょう。

 

3シグマ値と6シグマ値

 

シックスシグマの名前の由来を正確に言うと、統計学でZ値というのがあって、プロセスを改善して「そのZ値が6になるようなシグマ(標準偏差値)にする」から来ています。

 

Z値= 「(上限設定値 - 平均)÷  標準偏差」と「(平均 - 下限設定値)÷  標準偏差」の小さい方

 

それを実現した状態がよく言われる「100万個作って不良が3.4個しか無いレベル」なのです。ですからシグマの6倍と言う意味では無いのです。ご理解頂けたでしょうか?

 

今日は品質管理で本当に重要なシグマ、つまり標準偏差について色んな角度から学びました。

 

「こちらの記事も読まれてます