回帰分析をエクセルの散布図でわかりやすく説明します!【回帰分析シリーズ1】

回帰分析って名前からしてわかり難いですね。そこで実際に僕が行った単回帰分析の実例を紹介し、散布図から簡単に回帰式と決定係数を求める方法と回帰分析の基本や各用語をわかりやすく説明しています。

回帰分析をエクセルの散布図でわかりやすく説明します!【回帰分析シリーズ1】

(動画時間:5:58)

 

回帰分析の目的

こんにちは、リーンシグマブラックベルトのマイク根上です。

 

今回は日本語でリクエストを頂きました。

 

重回帰分析の動画リクエスト

「ビジネスで売上予測や顧客満足度リサーチ分析などで使用できる重回帰分析や相関関係の解説もお願いします。」

 

Katsu RDさんリクエストありがとうございました。このご質問に答えるには回帰分析の基本を最初に押さえる必要がありますので、三つの記事に分けました。

 

  • 今回は散布図での単回帰分析、
  • 次回がエクセルのデータ分析ツールでの単回帰分析、
  • 最後の動画で重回帰分析についてやります。

 

最近はITの発達でどこの会社も多くのデータを集められる様になりました。お持ちのデータはビジネス活動の結果です。

 

回帰分析でそのビジネス活動の結果の原因や結果に影響を与える要因を知るヒントを得られるのです。そしてそれを今後の活動に活かすのが本当の目的です。どのデータ分析もそうですが、分析を出して終わってしまってはダメなのです。

 

単回帰分析の活用例でわかりやすい

 

しかし回帰分析って名前からしてわかり難いですよね。実際に僕が行った例を話した方がこの回帰分析がわかりやすいと思います。

 

僕はこのブログを書いてから同じテーマで動画を作ります。そこでブログ文字数から動画時間を予測したかったのです。

 

過去のブログ記事の文字数と動画時間のサンプルを10組集めました。予測したい動画時間がY、これを「目的変数」と言い、原因となるブログ文字数をX、これを「説明変数」と言います。

 

目的変数と説明変数のデータ

 

そして、単回帰分析によってY=a X+ bという式で目的変数を表す事が出来ます。ちなみにこの式を「回帰式」と言います。僕の例では単回帰分析の結果からY=0.19 X- 35.6という式になりました。

 

単回帰式の例

 

0.19の部分を「係数」と言い、グラフの傾きを表します。わかりやすく言うとXが1増えたらYは0.19増えるという事です。また-35.6を「切片」と言い、xが0の時のYの値を表します。

 

この式から例えばブログ文字数Xが2000文字なら0.19掛ける2000マイナス35.6で動画時間が5分44秒とかなり正確に予測が出来るようになってすごく助かります。

 

この例では説明変数が一つなので単回帰分析なのです。説明変数が2つ以上の時は重回帰分析を使います。重回帰式はこんな感じです:

 

重回帰式の例

 

僕は動画時間を大体5分位にしたいので、動画撮影前にいつもこの式で動画時間を確認して、内容を増やしたり、場合によっては動画を二つに分けたりするアクションにつなげています。実際にこの回帰式の結果ら今回のテーマは長すぎて3つの動画に分けました。

 

エクセルの散布図だけでも単回帰式と寄与率が出せる。

 

それでは実際に単回帰分析をエクセルでやってみましょう。単回帰分析をする前に散布図を先に作ってデータを視覚化するとわかりやすくなります。

 

元データを選んで「挿入」、そして「グラフ」の中の「散布図」を選ぶだけです。簡単ですね。

 

動画時間とブログ文字数の散布図

 

これを見ると正の相関がありそうです。しかし縦軸には目的変数の動画時間がくるべきなのですが、逆になってます。「デザイン」タブの「データの選択」から「編集」でデータ群を入替えます。

 

次に、同じ「デザイン」タブの中の「グラフ要素を追加」、「近似曲線」から「その他の近似曲線オプション」で右の画面で「線形近似」を選びます。

 

その他の近似曲線オプション

 

ここで試しに「線形近似」ではなく他のモデルを選択して下さい。選択を変える毎にグラフ上の近似線が変ります。他のモデルの方が当てはまりが良いのであればそちらを使った方が良いです。

 

今回は「線形近似」を使います。そして「グラフに数式を表示する」と「グラフにR-2乗値を表示する」にチェックを入れます。するともう回帰式が散布図上に出ています。

 

グラフにR-2乗値を表示する

 

「R2乗」も散布図上に出ています。このR2乗とは何でしょうか?これは「決定係数」とか「寄与率」と呼ばれます。それと似た概念に「相関係数」というのもあります。

 

グラフ上のR2乗値

 

最後にこれらのわかり難い用語をわかりやすくまとめます。相関係数とは -1から+1の間の数値で-1に近づくほど負の相関が強くて、+1に近づくほど正の相関が強いのを表します。

 

正の相関と負の相関

 

R2乗、決定係数、寄与率はどれも同じ事で、さっきの相関係数を2乗した数値です。ですので0から1の間の数値になります。

 

決定係数の説明

 

このR2乗の意味をやさしく言うと、それが1に近づくほど同時に求めた回帰式が目的変数の予測をより正確に出来ることを表しています。

 

「こちらの記事も読まれてます

 

Comments

View My Stats