標準偏差 シグマ(σ)とは?沢山ある標準偏差のエクセル関数の違いも解説
この記事では標準偏差 シグマ(σ)とは何で、なぜ必要なのか、また母集団と標本の違いをエクセルシート上で分かり易く説明しています。そして、沢山ある標準偏差のエクセル関数の違いとどれを使えば良いかが理解出来ます 。
(動画時間:7:44)
標準偏差の前の偏差とは? つまり「平均-測定値」
こんにちは、リーンシグマ、ブラックベルトのマイク根上です。
業務改善コンサルをしています。
あるビューアさんからこういうメールを頂きました。
「シグマ値とその計算方法についてのビデオを作ってくれないか?」
Rehamリクエストありがとう。
僕達はシックスシグマをよく口にしますが、
シグマを本当に理解しているのでしょうか?
シグマとは統計学で標準偏差の事です。
でわ、シックスシグマとは
標準偏差の6倍の事なのでしょうか?
今日はこれを深く理解してみましょう。
今回の動画を作るのに僕の知り合いで
マスターブラックベルトの
津吉 政広さんにご協力を頂きました。
津吉さんのブログでリーンシックスシグマをもっと深く学べます。
⇒「マスターブラックベルト、津吉政宏氏のブログサイト」
ある部品の製造工程で、昨日と今日で5個ずつサンプルして
長さを測定したとしましょう。
昨日と今日の結果を比べたい時どうしましょうか?
まずは平均を調べるでしょう。
全ての数値を足してその個数で割ったら出てきます。
ここで困った事が起きました。
測定データは全く違うのですが昨日と今日の平均が
全く同じになったのです。
状況をグラフ化したのがこれです。
今日のデータの方がバラツキが大きそうです(下図参照)。
このバラツキ具合を数値化したのが標準偏差なのです。
僕らのリーンシグマではバラツキを最小限にして
品質を一定に保つことが大事なので
この標準偏差がとても重要となるのです。
それではこのバラツキ具合をどう計算しましょうか?
最初に考えたのが各数値の平均との差を全て足すことです。
しかしプラスとマイナスがあり、
その合計はいつも0になります。
残念ながらこれじゃ意味がないですね。
その平均との差を偏差 [=平均-測定値] と言いますが
その偏差を常にプラスにする方法が二つ有ります。
一つはその偏差の絶対値、つまり各数値の平均からの距離を
全て足してそのデータ数で割った数です。
もう一つの方法は偏差を二乗します。
標準偏差=分散の平方根、なぜ平方根するの?
二乗する[=偏差^2] といつもプラスになりますね。
それを全て足してデータ数で割った数値を
分散 [=SUM(偏差)/データ数] と言って
これも統計学ではよく使われます。
今回は説明を省きますが、この分散を使った方が
色々と都合が良いのでこっちが採用されました。
昨日の分散が0.006で今日が0.034でした。
しかし分散は数値を二乗してますので
単位が変ってしまいます。
今回はcmの長さから平方cmの面積に
変ってしまってます。
ですので分散の平方根をとって [=SQRT(分散)]
単位をcmに戻しています。これが標準偏差なのです。
昨日の標準偏差が0.08 cmで今日が0.185 cmでした。
今日の方がバラツキが大きいのが数値的に確認出来ました。
沢山ある標準偏差のエクセル関数。どれを使う?
これで標準偏差の概念をしっかりイメージ出来ましたか?
でしたら具体的な計算はエクセルに任せましょう。
標準偏差は英語で「Standard Deviation」と言います。
エクセルのセルにその略の「=stdev」と
入れるとなんと沢山関数が出てきます。
エクセル2010以降を使っている人は
STDEV.P関数かSTDEV.S関数を使って下さい。
それより前のエクセルではSTDEVPかSTDEVです。
STDEV.P関数の最後のPはPopulationの略で、
英語で母集団を意味し、その説明書きに
「母集団全体であると見なして」と書いてありますね。
もう片方のSTDEV.SのSはSampleの略で標本を意味し、
「標本に基づいて」と書いてあります。
「母集団」と「標本」の違いは何?エクセル関数も違ってくる。
この二つの違いがまた標準偏差を難しくしています。
今回のデータは5個ずつだけですが、
実務では沢山部品を作りますね。
例えば毎日100個の部品を作るとして、正確に
全ての長さを計って標準偏差を計算したら確実です。
これを全数検査と言います。
しかし時間もコストもかかります。
ですから無作為にサンプル、つまり標本をとって
それを便宜上全体を反映している
とみなす標本検査をするわけです。
この時はSTDEV.Sを使うし、
最初の全数検査の時は母集団になるので
STDEV.Pを使うわけです。
ちなみにさっきの例ですとSTDEV.P関数を使うと
最初の手計算の結果と同じになります。
STDEV.Sを使うと昨日は0.089で今日は0.207 となり
両方とも少しバラツキが増えることになります。
STDEV.S関数では分散を求める時に
各偏差を二乗したのを合計し、
データ数で割るのではなく、
データ数マイナス1で割っているのです。
少ない数で割ってますので結果は
少し大きくなるわけですが、
母集団は標本より数が多いので母集団のバラツキは
標本のそれよりも大きくなるのは容易に想像できますね。
統計的に根拠が少しありますが、
大雑把に言うと標本で標準偏差を求める時は
データ数マイナス1 でいこうと
昔の賢い人達が決めたのです。
要は、全数検査以外はサンプル用の
STDEV.S を使うと覚えて下さい。
「シグマ」、「工程でのシグマ値」、「シックスシグマの由来」は何?
これでやっと質問者のシグマ値の話が出来ます。
例えば今日のデータで3シグマとは
3×標準偏差で0.621 cmです。
しかしこの製造工程の3シグマ値は何と聞かれたら
平均 ±3シグマで 8.56 ± 0.621になり
7.939から9.181 の間となるわけです。
これは一般的に管理図を書く時の
上限管理線と下限管理線に使われます。
ちなみにモトローラが開発した
シックスシグマの名前は6シグマを目指す
ところから来ています。
しかし前述のシグマ値とは違います。
6シグマ値は平均 ±6シグマで
7.318から9.802 cmの間という意味で、
「それじゃぁ、3シグマ値より簡単だよね」
と思って混乱する方もいるでしょう。
シックスシグマの名前の由来を正確に言うと、
統計学でZ値というのがあって、プロセスを改善して
「そのZ値が6になるようなシグマ(標準偏差値)にする」
から来ています。
Z値= 「(上限設定値 - 平均)÷ 標準偏差」と「(平均 - 下限設定値)÷ 標準偏差」の小さい方
(工程能力のCpkに似ていますね。)
それを実現した状態がよく言われる
「100万個作って不良が3.4個しか無いレベル」なのです。
ですからシグマの6倍と言う意味では無いのです。
ご理解頂けたでしょうか?
今日は品質管理で本当に重要なシグマ、
つまり標準偏差について色んな角度から学びました。
「こちらの記事も読まれてます。」