奧肯法則 在總體經濟學 是簡單線性迴歸的實例。圖中應變數 (經濟增長率)被推論為與自變數 (失業率變動)存在負向的線性關係。 在統計學 中,簡單線性迴歸 是指僅具有單一的自變數 的線性迴歸 [ 1] [ 2] [ 3] [ 4] [ 5] ,其中「簡單」係單一自變數之意。此迴歸可用於估計有限的截距 與斜率 以推論應變數 在特定自變數為條件下的均值 。
普通最小二乘法 是常見用於尋求簡單線性迴歸式的方法,目的是得到能使殘差平方和 最小的迴歸式。其它方法,諸如最小絕對偏差 (使殘差絕對值的總和最小)、泰爾-森估算 (所有樣本點兩兩配對的斜率中位數做為整體斜率)等,亦可應用於簡單線性迴歸的命題。戴明迴歸 (考慮自變數與應變數同時為誤差來源)的功能雖然與上述方法相似但不屬於簡單線性迴歸的範疇,因其不區分自變數與應變數且可能得到多個迴歸式。
以最小平方法處理簡單線性迴歸,則求得的斜率β 等於自變數x 與應變數y 的皮爾森積動差相關係數 與二者的標準偏差 比值的乘積,
β ^ = r x , y s y s x {\displaystyle {\hat {\beta }}=r_{x,y}{\frac {s_{y}}{s_{x}}}} 而再考慮截距α 則保證使迴歸線通過自變數與應變數的均值 (x , y ) 。
以下皆以普通最小二乘法求解簡單線性迴歸式。考慮以下的數學模型 函數
y = α + β x {\displaystyle y=\alpha +\beta x} , 是一條斜率 為β 且y軸截距 為α 的直線。通常實際上自變數與應變數並非如此完美的關係而存在未知的誤差 εi ,即
y i = α + β x i + ε i , i = 1 , … , n {\displaystyle y_{i}=\alpha +\beta x_{i}+\varepsilon _{i},i=1,\ldots ,n} , 以表示第 i {\displaystyle i} 對資料中自變數與應變數的關係。此模型稱為簡單線性模型。
計算迴歸式的目標是根據資料計算估計值 α ^ {\displaystyle {\hat {\alpha }}} 與 β ^ {\displaystyle {\hat {\beta }}} 以「最佳地」估計參數α 與β 。由於採用最小平方法 進行計算,「最佳」係指能使殘差平方和 ε ^ i = y i − α − β x i {\displaystyle {\hat {\varepsilon }}_{i}=y_{i}-\alpha -\beta x_{i}} 最小的參數估計值為目標。換句話說,我們尋求能使Q 函數值最小的解,
Q ( α , β ) = ∑ i = 1 n ε ^ i 2 = ∑ i = 1 n ( y i − α − β x i ) 2 {\displaystyle Q(\alpha ,\beta )=\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{\,2}=\sum _{i=1}^{n}(y_{i}-\alpha -\beta x_{i})^{2}} 。 此解為 α ^ {\displaystyle {\hat {\alpha }}} 與 β ^ {\displaystyle {\hat {\beta }}} [ 6] ,
α ^ = y ¯ − ( β ^ x ¯ ) , β ^ = ∑ i = 1 n ( x i − x ¯ ) ( y i − y ¯ ) ∑ i = 1 n ( x i − x ¯ ) 2 = s x , y s x 2 = r x y s y s x {\textstyle {\begin{aligned}{\hat {\alpha }}&={\bar {y}}-({\hat {\beta }}\,{\bar {x}}),\\{\hat {\beta }}&={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}\\&={\frac {s_{x,y}}{s_{x}^{2}}}\\&=r_{xy}{\frac {s_{y}}{s_{x}}}\end{aligned}}} 其中
x ¯ {\displaystyle {\bar {x}}} 與 y ¯ {\displaystyle {\bar {y}}} 分別為x i 與y i 的計數平均數 ,r xy 為x 與y 的皮爾森積動差相關係數 ,s x 與sy 分別為x 與y 的樣本標準偏差 , s x 2 {\displaystyle s_{x}^{2}} 與 s x , y {\displaystyle s_{x,y}} 分別為x 的樣本變異數 及x 與y 間的樣本共變異數 。 將 α ^ {\displaystyle {\hat {\alpha }}} 與 β ^ {\displaystyle {\hat {\beta }}} 帶入
y ^ = α ^ + β ^ x {\displaystyle {\hat {y}}={\hat {\alpha }}+{\hat {\beta }}x} 可得
y ^ − y ¯ s y = r x y x − x ¯ s x {\displaystyle {\frac {{\hat {y}}-{\bar {y}}}{s_{y}}}=r_{xy}{\frac {x-{\bar {x}}}{s_{x}}}} 。 此式呈現了r xy 為預先將自變數與應變數預先標準化 後的迴歸斜率。由於r xy 界於-1 與1 之間,左式的絕對值勢必不大於右式,體現了趨中迴歸 的現象。
以 x y ¯ {\displaystyle {\overline {xy}}} 表示對應的x 與y 的乘積和,
x y ¯ = 1 n ∑ i = 1 n x i y i {\displaystyle {\overline {xy}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}y_{i}} , 可使r xy 簡化成
r x y = x y ¯ − x ¯ y ¯ ( x 2 ¯ − x ¯ 2 ) ( y 2 ¯ − y ¯ 2 ) {\displaystyle r_{xy}={\frac {{\overline {xy}}-{\bar {x}}{\bar {y}}}{\sqrt {\left({\overline {x^{2}}}-{\bar {x}}^{2}\right)\left({\overline {y^{2}}}-{\bar {y}}^{2}\right)}}}} 。 簡單線性迴歸的判定係數 即為二變數間皮爾森積動差相關係數 的平方:
R 2 = r x y 2 {\displaystyle R^{2}=r_{xy}^{2}} 。 將 β ^ {\displaystyle {\hat {\beta }}} 的估計式分子乘以 ( x i − x ¯ ) ( x i − x ¯ ) {\displaystyle {\frac {(x_{i}-{\bar {x}})}{(x_{i}-{\bar {x}})}}} ,可改寫為
β ^ = ∑ i = 1 n ( x i − x ¯ ) ( y i − y ¯ ) ∑ i = 1 n ( x i − x ¯ ) 2 = ∑ i = 1 n ( ( x i − x ¯ ) 2 × ( y i − y ¯ ) ( x i − x ¯ ) ) ∑ i = 1 n ( x i − x ¯ ) 2 {\displaystyle {\hat {\beta }}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\sum _{i=1}^{n}\left((x_{i}-{\bar {x}})^{2}\times {\frac {(y_{i}-{\bar {y}})}{(x_{i}-{\bar {x}})}}\right)}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}} 。
可以看出,迴歸式的斜率為 ( y i − y ¯ ) ( x i − x ¯ ) {\displaystyle {\frac {(y_{i}-{\bar {y}})}{(x_{i}-{\bar {x}})}}} 以 ( x i − x ¯ ) 2 {\displaystyle (x_{i}-{\bar {x}})^{2}} 為權數的加權平均。因此, ( x i − x ¯ ) 2 {\displaystyle (x_{i}-{\bar {x}})^{2}} 越大的資料對斜率 β ^ {\displaystyle {\hat {\beta }}} 的影響力越大。
α ^ {\displaystyle {\hat {\alpha }}} 可經由下列式子估算: α ^ = y ¯ − β ^ x ¯ {\displaystyle {\hat {\alpha }}={\bar {y}}-{\hat {\beta }}\ {\bar {x}}} 。 由於 β ^ = tan ( θ ) = d y / d x → d y = d x × β ^ {\displaystyle {\hat {\beta }}=\tan(\theta )=dy/dx\rightarrow dy=dx\times {\hat {\beta }}} ,其中 θ {\displaystyle \theta } 即為與橫軸正值的夾角,可以得到 α ^ = y ¯ − d x × β ^ = y ¯ − d y {\displaystyle {\hat {\alpha }}={\bar {y}}-dx\times {\hat {\beta }}={\bar {y}}-dy} 。
^ Seltman, Howard J. Experimental Design and Analysis (PDF) . 2008-09-08: 227 [2024-04-29 ] . (原始内容存档 (PDF) 于2016-11-30). ^ Statistical Sampling and Regression: Simple Linear Regression . Columbia University. [2016-10-17 ] . (原始内容 存档于2017-12-11). When one independent variable is used in a regression, it is called a simple regression;(...) ^ Lane, David M. Introduction to Statistics (PDF) . : 462 [2024-04-29 ] . (原始内容存档 (PDF) 于2019-12-10). ^ Zou KH; Tuncali K; Silverman SG. Correlation and simple linear regression. . Radiology. 2003, 227 (3): 617–22. ISSN 0033-8419 . OCLC 110941167 . PMID 12773666 . doi:10.1148/radiol.2273011499 (English) . ^ Altman, Naomi; Krzywinski, Martin. Simple linear regression. Nature Methods. 2015, 12 (11): 999–1000. ISSN 1548-7091 . OCLC 5912005539 . PMID 26824102 . doi:10.1038/nmeth.3627 (English) . ^ Kenney, J. F. and Keeping, E. S. (1962) "Linear Regression and Correlation." Ch. 15 in Mathematics of Statistics , Pt. 1, 3rd ed. Princeton, NJ: Van Nostrand, pp. 252–285