単回帰分析について
回帰分析とは
複数の変量(変数)があるときに、1つの変量を残りの変量で説明すること。
よくわからん
変量とは bellcurve.jp
単回帰分析
2つの変量を扱うものを単回帰分析と呼びます。
単回帰分析において、導きだしたい変量(目的変量)をy、導き出すために使う変量(説明変量)をxとし、これを一次式(線形)で説明する一番単純かつよく利用される回帰方程式となります。
一次式なので、下記のように表されます。
^yとしているのは、これは理論値であるためです。
( a
は回帰係数, b
は切片)
この方程式を導き出すために、最小二乗法を使います。
最小二乗法で一次方程式の回帰方程式を導き出すには、各データと導き出される一次方程式の直線の距離の和(これが誤差になる)を 全体
で最小になるように方程式を導き出します。
このデータ全体の理論値の 誤差
は残差平方和 Qe
呼ばれます。 (残差の平方(距離)をとって、その和)
Qe
が最小になるように方程式を解けば、(1)の一次方程式の a
と b
が決まる。
例として、縦軸yに体重、横軸 x に身長とした、体重と身長の関係を示してみます。
身長xがいくらのときに、体重yはいくらになるかの導きだす回帰方程式を求めいます。
これはGoogle Spreadsheetの散布図から、トレンドラインを線形で出した結果となります。
回帰方程式を求めたとしても、データさえあれば、最小二乗法を使ってなんらかしらの直線を引くことができるため、その方程式はどれくらい実情を表しているかはわかりません。
回帰方程式の確からしさ(精度)を表現するために決定係数を使います。
決定係数は下記のように定義されます。
Qe
は、先程の残差平方和 Qe
です。
これは、実際と理論値の誤差を表しています。
Q
は目的変量 y の散らばりの総量になります。
Q
は、yの平均値と実際の値の距離の二乗の和となります。
誤差が小さければ、Qe
は0に近づき、R^2
は1に近付いていきます。
つまり
となり、R^2
が1に近づけば精度が高いといえます。
先程の例だと、決定係数 R^2
は 0.499となっています。