CubicLouve

Spring_MTの技術ブログ

単回帰分析について

回帰分析とは

複数の変量(変数)があるときに、1つの変量を残りの変量で説明すること。

よくわからん

変量とは bellcurve.jp

単回帰分析

2つの変量を扱うものを単回帰分析と呼びます。

単回帰分析において、導きだしたい変量(目的変量)をy、導き出すために使う変量(説明変量)をxとし、これを一次式(線形)で説明する一番単純かつよく利用される回帰方程式となります。

一次式なので、下記のように表されます。

\displaystyle{
 \hat{y}  = ax + b  ・・・ (1)
}

^yとしているのは、これは理論値であるためです。 ( a は回帰係数, b は切片)

この方程式を導き出すために、最小二乗法を使います。

ja.wikipedia.org

最小二乗法で一次方程式の回帰方程式を導き出すには、各データと導き出される一次方程式の直線の距離の和(これが誤差になる)を 全体 で最小になるように方程式を導き出します。

このデータ全体の理論値の 誤差 は残差平方和 Qe 呼ばれます。 (残差の平方(距離)をとって、その和)

\displaystyle{
Qe = (y1 - \hat{y1})^2 + (y2 - \hat{y2})^2 + ・・・ + (yn - \hat{yn})^2
}

Qe が最小になるように方程式を解けば、(1)の一次方程式の ab が決まる。

例として、縦軸yに体重、横軸 x に身長とした、体重と身長の関係を示してみます。

身長xがいくらのときに、体重yはいくらになるかの導きだす回帰方程式を求めいます。

f:id:Spring_MT:20200715091158p:plain

これはGoogle Spreadsheetの散布図から、トレンドラインを線形で出した結果となります。

回帰方程式を求めたとしても、データさえあれば、最小二乗法を使ってなんらかしらの直線を引くことができるため、その方程式はどれくらい実情を表しているかはわかりません。

回帰方程式の確からしさ(精度)を表現するために決定係数を使います。

決定係数は下記のように定義されます。

\displaystyle{
R^2 = \frac{Q- Qe}{Q} ・・・(2)
}

決定係数 R^2 の正の平方根をRを重相関係数といいます。

Qe は、先程の残差平方和 Qe です。

これは、実際と理論値の誤差を表しています。

Q は目的変量 y の散らばりの総量になります。

Q は、yの平均値と実際の値の距離の二乗の和となります。

\displaystyle{
Q = (y1 - \bar{y})^2 + (y2 - \bar{y})^2 + ・・・ + (yn - \bar{y})^2
}

誤差が小さければ、Qe は0に近づき、R^2 は1に近付いていきます。

つまり

\displaystyle{
0 \leqq R^2 \leqq 1
}

となり、R^2 が1に近づけば精度が高いといえます。

先程の例だと、決定係数 R^2 は 0.499となっています。

参照

27-4. 決定係数と重相関係数 | 統計学の時間 | 統計WEB