CubicLouve

Spring_MTの技術ブログ

重回帰分析について

spring-mt.hatenablog.com

から続く話です。

単回帰分析では、2つの変量しか扱っていませんでした。

重回帰分析では2変量以上の多変量とを扱います。

ただし、ある1変量を説明しようとするのは単回帰分析でも重回帰分析でもかわりません。

単回帰分析の回帰方程式はこんな感じです。

\displaystyle{
 \hat{y}  = ax + b
}

aが回帰係数、bは切片です

重回帰分析の回帰法的式はこんな感じになります。

\displaystyle{
 \hat{y}  = a_1x_1 + a_2x_2 + a_3x_3 + ・・・  a_nx_n + b
}

単回帰分析と違って多次元になってくるので、もうグラフで表現できなくなってきます。(3変量であれば3次元のグラフがかけますが)

a1、a2、a3を 偏回帰係数 と呼びます。

Excelの回帰分析だと、単に 係数 と表されます。

って書くと難しい感じですが、英語だと partial なはずで、部分的って意味だとまあ、そうだなって感じですね。

偏回帰係数

それぞれの偏回帰係数は、特定の説明変量xについてそれ以外の説明変量の影響を除いた、目的変量 yに対する影響力になります。

特定の説明変量が1変わったときの目的変量 yの平均的な変化を見ることができます。

この偏回帰係数を解釈し、目的変量 yに対するそれぞれの説明変量 xの影響度を測定することがもっともやりたいことなのではないでしょうか?

偏回帰係数の算出は、単回帰分析の回帰係数の算出と同様に最小二乗法を用います。

残差平方和 を Qe としています。

\displaystyle{
Qe = (y1 - \hat{y1})^2 + (y2 - \hat{y2})^2 + ・・・ + (yn - \hat{yn})^2
}

つまり、変数を3つとすると、

\displaystyle{
Qe = (y1 -  a_1x_{11} + a_2x_{21} + a_3x_{31} + ・・・  a_nx_{n1} + b )^2 + (y2 - a_1x_{12} + a_2x_{22} + a_3x_{32})^2 + ・・・ + (yn - a_1x_{1n} + a_2x_{2n} + a_3x_{3n})^2
}

つまり

\displaystyle{
Qe = \sum_{i=1}^{n}  (yi - a_1x_{1i} + a_2x_{2i} + a_3x_{3i})^2
}

となります。

この残差平方和 Qe が最小になるように、つまり 0 になるように方程式を解きます。

ここからは、偏微分を駆使してもろもろ計算していくのですが、すっ飛ばします。

  • 参考

ラグランジュの未定乗数法 - Wikipedia

重回帰(説明変数が複数個))の場合

各偏回帰係数の検定

偏回帰係数が求められても、その影響力が有意なものかはわかりません。

それを測るために、説明変量ごとにt検定を行います。

t検定はt分布を用いた検定となっています。

t分布については下記リンクなどを参照ください。(これはこれで大きいネタすぎる。。)

t分布 - Wikipedia

t分布はt値が分布したものです。

t値は 偏回帰係数 / 標準誤差 によって求められます。

t検定においては、「偏回帰係数の影響力は0」である帰無仮説(棄却したい仮説)を棄却できるか(背理法)を検定します。

帰無仮説が正しい場合、t値はt分布に従います。

ここでのP値はt値が出現する確率となります。

この確率が低ければ、t値はt分布に従わないため、帰無仮説を棄却することができます。

P値は一般的には0.05を下回っていると有意であると言われます。

参考

Excelにおける回帰分析 (5)説明変数に関する出力

27-2. 重回帰分析 | 統計学の時間 | 統計WEB

標準偏回帰係数

説明変量 x が同じ尺度(単位)である場合は、偏回帰係数同士比較しても問題はないですが、異なる尺度の場合はデータを標準化して比較する必要があります。(x1は身長、x2は体重とかの場合など)

これを、標準化された偏回帰係数を 標準偏回帰係数 と呼びます。

標準化とは、観測対象によって変わってしまうデータのばらつきを同じ尺度(グラフ上の同じ縦軸と横軸)で表現できるようにすることです。

具体的には、データ全体を平均を0、標準偏差(分散)を1 に変換することです。

データ値から全体の平均を引いて、全体の標準偏差で割ることで標準化ができます。

標準化された個々の値は標準化変量 z と呼ばれます。

標準偏回帰係数は、データを全て標準化すれば求められますが、下記の式でも求められます。

標準偏回帰係数=偏回帰係数×説明変数の標準偏差÷目的変数の標準偏差

多分この式を展開して解けば同じ答えになると思うけど、ここではすっ飛ばします。

\displaystyle{
Qe = \sum_{i=1}^{n}  ( \frac{yi - \bar{y}}{sy}  - a_1  \frac{x_{1i} - \bar{x_1}}{ sx1 }   + a_2 \frac{x_{2i} - \bar{x_2}}{ sx2 } + a_3 \frac{x_{3i} - \bar{x_3}}{ sx3 })^2
}

偏回帰係数を使った計算式の精度

偏回帰係数を使った計算式(モデル) ができても、このモデルの精度が悪ければ、偏回帰係数を解釈しても無駄になっていまいます。

決定係数

単回帰分析では決定係数を使って精度を判定しました。

決定係数は下記のように定義されます。

\displaystyle{
R^2 = \frac{Q- Qe}{Q} ・・・(2)
}

Q は、yの平均値と実際の値の距離の二乗の和となります。

\displaystyle{
Q = (y1 - \bar{y})^2 + (y2 - \bar{y})^2 + ・・・ + (yn - \bar{y})^2
}

重回帰分析でも決定係数を算出して使うことができます。

Excelの回帰分析だと 重決定 R2 と表されます。

しかし、決定係数は説明変量 xの数が増えるほど増加し1に近づくという性質を持っています。

決定係数 - Wikipedia

決定係数だけモデルの精度を判断すると、決定係数が高い要因が、精度が高いのか、説明変数の数が多いからなのかの判断がつきません。

そのため、モデルの精度を判断する指標として、 自由度修正済み決定係数 を使います。

自由度修正済み決定係数

自由に動ける個数のことを自由度といいます。

大きさ n の標本における観測データ (x1, x2, ..., xn) の自由度は n とする。

自由度 - Wikipedia

自由度修正済み決定係数は下記の用に表されます。

\displaystyle{
\bar{R^2}
}

サンプル数を n 、説明変量の数を p とすると求め方は下記の式になります。

\displaystyle{
\bar{R^2} = 1 - (1 - R^2) \frac{n - 1}{n - p - 1}
}

残差平方和は QeQ は目的変量 y の散らばりの総量とし、決定係数は下記のようになります。

\displaystyle{
R^2 = \frac{Q- Qe}{Q} \\

1  - R^2 = \frac{Qe}{Q} \\ 
}

これらを当てはめると、自由度修正済み決定係数は下記の式になります。

\displaystyle{
\bar{R^2} = 1 -   \frac{n - 1}{n - p - 1}\frac{Qe}{Q}
}

自由度は説明変量の数と目的変量 y を除いたものなので、 n - p - 1 となります。

自由度修正済み決定係数は、決定係数と同じ用に1に近づくほど精度が高いとなります。

また、精度が悪い場合は0よりも小さくなることもあり、下限はありません。

標準誤差

重回帰分析での標準誤差は、残差の標準偏差となります。

標準偏差は分散の平方根です。

なので、重回帰分析での標準誤差は下記になります。

\displaystyle{
StDev = \sqrt{ \frac{\sum_{i=1}^{n}  (yi - \hat{y_i} )^2}{n - p - 1}}
}

標準偏差は、データの平均的なばらつきを示します。

標準誤差の値が低ければ残差の変動が小さいことになり、モデルの精度が高いことを示しています。

参照

社会・人口統計体系 | ファイル | 統計データを探す | 政府統計の総合窓口

Latexをはてなブログmarkdown形式に変換 - ano3のブログ

  • サンプル数の話

重回帰のときに必要なデータの数はパラメータの数の10倍です - 驚異のアニヲタ社会復帰の予備