重回帰分析をSEOの例題で理解する。【回帰分析シリーズ3】

重回帰分析をSEO活動を例題にして説明しています。エクセルでの使い方は幸い単回帰分析と同じですが、元データを準備する時に重回帰分析ではいろいろ注意点があり、ダミー変数の使い方や多重共線性(マルチコ)についても話しています。

重回帰分析をSEOの例題で理解する。【回帰分析シリーズ3】

(動画時間:7:03)

 

重回帰分析とは?単回帰分析との違いは?

 

こんにちは、リーンシグマブラックベルトのマイク根上です。

 

今回はビジネスですごく役に立つ「回帰分析シリーズ」の第三弾で重回帰分析についてです。

 

前二つの記事は基本で、今日の内容の土台になります。まだ見ていない方は下のリンクからご覧になって下さい。

 

 

 

前回のおさらいになりますが、回帰分析とは対象となる目的変数Yを計算する回帰式を求めることです。この式のXを説明変数と言い、説明変数が一つの時が単回帰分析、複数の時が重回帰分析というのです。

 

回帰分析の種類

 

実務では売上予測をしたり、マーケティングの結果分析をするのに回帰分析をしますが、説明変数が一つしかない時の方がまれで、大抵は重回帰分析を使います。

 

エクセルでの使い方は幸い単回帰分析と同じです。しかし、その前の元データを準備する時に重回帰分析ではいろいろ注意点があります。

 

例題:重回帰分析でSEOを考える。

 

今回もこのサイト、econoshift.comを例題にして重回帰分析の説明をします。その例題を簡単に話しますと、ウェブサイト運営では今やGoogleからの流入を増やす為の対策が必須です。

 

それをSEO(Search Engine Optimization=検索エンジン最適化)と言いますが、SEOではサイトのページ毎に対策キーワードを設定することが不可欠で、一番良いのを選ぶのにいつも苦労します。

 

SEOツール

 

上図は僕が作ったSEOツールです。R列の数字がグーグルから僕のブログの各ページへ流入した「ページへのクリック数」です。AJ列の「対策キーワード」をクリックすると実際にどういう検索キーワードでそのページに来てくれているのが分かります。(下図参照)

 

検索キーワードのデータ

 

そしてそのキーワード毎にも色んなデータがありまして、対策キーワードを選ぶ時、そのデータの中でどれを一番重要視したら良いのかを今回重回帰分析で知りたいのです。

 

実務での重回帰分析の手順

 

分析する元データから目的変数と説明変数を決める。

 

重回帰分析では効果的にどのデータを目的変数にしてどのデータを説明変数にするかを決めることが一番大切で、また難しいのです。

 

今回の例ではGoogleからの流入を増やすのが目的なので、目的変数を「ページへのクリック数」にしました。説明変数になるのは対策キーワードの「クリック数」、「表示回数」、「CTR」、「表示順位」となります。

 

重回帰分析で使うSEOデータ

 

今回はSEOの細かい説明はしませんが、これらの説明変数のうち、「ページへのクリック数」にどれが一番強い影響を与えているかを重回帰分析で推測するわけです。

 

今回の場合は目的変数にするデータは明らかですが、いくつか選択肢がある場合もあります。その時には分析結果から何をしたいのかをよく考える事で決め易くなります。

 

更に説明変数にするデータがもっと沢山ある時もあります。しかし説明変数が多すぎると分析の精度が落ちますので、多くても7つ位まで絞ると良いと言われています。そして説明変数を選ぶ時にいくつか注意点があります。

 

定量的でない定性的なデータはどうする?⇒ダミー変数を使う。

 

長さや時間などの連続したデータを定量的データと言います。それに対して「男/女」や「好き/嫌い」などのデータを定性的データと言います。アンケート結果によくありますよね。

 

この種のデータも重回帰分析で使えますが、数値化する必要があります。男は1、女は2、や好きは3、普通は2、嫌いは1などの様に数字を当てはめるのです。この変数をダミー変数と呼びます。

 

定性的データにダミー変数を使う

 

多重共線性(マルチコ)を除外する。CORREL関数の活用

 

もう一つの説明変数の注意点はもし説明変数の中に互いに相関が高いデータを入れて重回帰分析をした場合、数学上正しい回帰式が得られない事が分かっていて、それを多重共線性があると言います。英語から「マルチコ」と呼ぶ人もいます。

 

よく使われる例では、身長を目的変数にして右足と左足の長さを説明変数にすると下記の様な回帰式が出来上がり、左足の係数がマイナスで左足が長くなるほど身長が低くなると言うおかしな結果が出てしまいます。

 

多重共線性を除外する

 

この多重共線性の防止方法は最初に全説明変数間の相関係数を出して、相関が強いデータ群があれば、どちらかを除くか、どうしても両方とも入れたい場合はそれを平均するなどして適切な方法で一つのデータにする事です。

 

それではエクセル上で実際にやってみましょう。最初に下図の様な全説明変数間のクロス表を作ります。各説明変数が他の説明変数と交差するセルにエクセル関数のCORREL関数で比べたいデータ範囲を引数にするとその二つのデータ群の相関係数が出せます。

 

相関係数を出せるCORREL関数

 

これで今回はどれも相関係数が高くないのが確認できましたので、全ての説明変数を使います。

 

エクセルのデータ分析ツールで重回帰分析を実施する。

 

続いて重回帰分析をしましょう。「データ」から「データ分析」、「回帰分析」を選びます。「入力Y範囲」で目的変数の「ページへのクリック数」、「入力X範囲」で先ほどの説明変数の範囲をまとめて選びます。

 

エクセルの重回帰分析

 

重回帰分析の時は各列見出しも入れて、「ラベル」(上図赤矢印参照)にチェックを入れると良いのです。それにより、結果の中に自分の説明変数の見出しが出てくれて分かり易くなるからです。

 

前回の記事で、P値の説明を詳しくしています。参考にして下さい。⇒「単回帰分析の結果の見方【エクセルのデータ分析ツール】」

 

簡単に言うとP値が低い説明変数ほど目的変数と強い関係性が有るのです。

 

重回帰分析でのP値の比較

 

これにより、検索キーワードの「表示回数」が一番P値が低いので、それが統計上「ページへのクリック数」に一番影響している事が分かりました。理論的にこれを説明できたのはすごく良かったです。

 

結果の中の各説明変数の係数から僕の重回帰式はこんな感じです。

Y = 1.23 クリック数 + 0.54 表示回数 + 173.66 CTR + 0.25 表示順位 – 28.49

 

これで説明変数、「ページへのクリック数」を予測できるのです。補正R2は66%ですのでまずまずの結果です。

 

今回の分析での一番の成果は対策キーワードを決める時に「表示回数」が一番重要なのが分かったことです。これは僕のブログ運営ですごく役立ちます。

 

「こちらの記事も読まれてます

 

Comments

  1. I like thiss ԝeb site very much, Its a rattling nice
    billet to read and find information. “I look upon every day to be lost, in which I do not make a new acquaintance.” by Samuel Johnson.

  2. Ꮶeеp up the wonderful work , I read feԝ bloɡ posts on this wеb site annd I believe that your web blog is ᴠery
    interesting and contains banbds of gоod іnformation.

View My Stats