重回帰分析について

spring-mt.hatenablog.com

から続く話です。

単回帰分析では、2つの変量しか扱っていませんでした。

重回帰分析では2変量以上の多変量とを扱います。

ただし、ある1変量を説明しようとするのは単回帰分析でも重回帰分析でもかわりません。

単回帰分析の回帰方程式はこんな感じです。

$\displaystyle{ \hat{y} = ax + b }$

aが回帰係数、bは切片です

重回帰分析の回帰法的式はこんな感じになります。

$\displaystyle{ \hat{y} = a_1x_1 + a_2x_2 + a_3x_3 + ･･･ a_nx_n + b }$

単回帰分析と違って多次元になってくるので、もうグラフで表現できなくなってきます。(3変量であれば3次元のグラフがかけますが)

a1、a2、a3を 偏回帰係数 と呼びます。

Excelの回帰分析だと、単に 係数 と表されます。

偏 って書くと難しい感じですが、英語だと partial なはずで、部分的って意味だとまあ、そうだなって感じですね。

偏回帰係数

それぞれの偏回帰係数は、特定の説明変量xについてそれ以外の説明変量の影響を除いた、目的変量 yに対する影響力になります。

特定の説明変量が1変わったときの目的変量 yの平均的な変化を見ることができます。

この偏回帰係数を解釈し、目的変量 yに対するそれぞれの説明変量 xの影響度を測定することがもっともやりたいことなのではないでしょうか？

偏回帰係数の算出は、単回帰分析の回帰係数の算出と同様に最小二乗法を用います。

残差平方和を Qe としています。

$\displaystyle{ Qe = (y1 - \hat{y1})^2 + (y2 - \hat{y2})^2 + ･･･ + (yn - \hat{yn})^2 }$

つまり、変数を3つとすると、

$\displaystyle{ Qe = (y1 - a_1x_{11} + a_2x_{21} + a_3x_{31} + ･･･ a_nx_{n1} + b )^2 + (y2 - a_1x_{12} + a_2x_{22} + a_3x_{32})^2 + ･･･ + (yn - a_1x_{1n} + a_2x_{2n} + a_3x_{3n})^2 }$

つまり

$\displaystyle{ Qe = \sum_{i=1}^{n} (yi - a_1x_{1i} + a_2x_{2i} + a_3x_{3i})^2 }$

となります。

この残差平方和 Qe が最小になるように、つまり 0 になるように方程式を解きます。

ここからは、偏微分を駆使してもろもろ計算していくのですが、すっ飛ばします。

参考

ラグランジュの未定乗数法 - Wikipedia

重回帰（説明変数が複数個)）の場合

各偏回帰係数の検定

偏回帰係数が求められても、その影響力が有意なものかはわかりません。

それを測るために、説明変量ごとにt検定を行います。

t検定はt分布を用いた検定となっています。

t分布については下記リンクなどを参照ください。(これはこれで大きいネタすぎる。。)

t分布 - Wikipedia

t分布はt値が分布したものです。

t値は偏回帰係数 / 標準誤差によって求められます。

t検定においては、「偏回帰係数の影響力は0」である帰無仮説(棄却したい仮説)を棄却できるか(背理法)を検定します。

帰無仮説が正しい場合、t値はt分布に従います。

ここでのP値はt値が出現する確率となります。

この確率が低ければ、t値はt分布に従わないため、帰無仮説を棄却することができます。

P値は一般的には0.05を下回っていると有意であると言われます。

参考

Excelにおける回帰分析（5）説明変数に関する出力

27-2. 重回帰分析 | 統計学の時間 | 統計WEB

標準偏回帰係数

説明変量 x が同じ尺度(単位)である場合は、偏回帰係数同士比較しても問題はないですが、異なる尺度の場合はデータを標準化して比較する必要があります。(x1は身長、x2は体重とかの場合など)

これを、標準化された偏回帰係数を 標準偏回帰係数 と呼びます。

標準化とは、観測対象によって変わってしまうデータのばらつきを同じ尺度(グラフ上の同じ縦軸と横軸)で表現できるようにすることです。

具体的には、データ全体を平均を0、標準偏差(分散)を1 に変換することです。

データ値から全体の平均を引いて、全体の標準偏差で割ることで標準化ができます。

標準化された個々の値は標準化変量 z と呼ばれます。

標準偏回帰係数は、データを全て標準化すれば求められますが、下記の式でも求められます。

標準偏回帰係数＝偏回帰係数×説明変数の標準偏差÷目的変数の標準偏差

多分この式を展開して解けば同じ答えになると思うけど、ここではすっ飛ばします。

$\displaystyle{ Qe = \sum_{i=1}^{n} ( \frac{yi - \bar{y}}{sy} - a_1 \frac{x_{1i} - \bar{x_1}}{ sx1 } + a_2 \frac{x_{2i} - \bar{x_2}}{ sx2 } + a_3 \frac{x_{3i} - \bar{x_3}}{ sx3 })^2 }$