통계학 에서 가우스-마르코프 정리 (영어 : Gauss–Markov theorem , 또는 일부 저자는 가우스 정리 [ 1] 라고 표기)는 선형 회귀 모형의 오차가 상관관계가 없고, 오차의 분산이 일정하며, 오차의 기대값이 0이며 설명변수가 외생변수일 때 보통 최소제곱 추정량(OLS)은 다른 선형 불편 추정량에 비하여 표본 분산이 가장 낮다고 명시한다.[ 2] 오차항이 정규분포를 따를 필요는 없다.
이 정리는 비록 가우스의 작품이 마르코프의 작품보다 현저히 앞섰지만 칼 프리드리히 가우스와 안드레이 마르코프의 이름을 따서 명명되었다.[ 3] 그러나 가우스가 독립성과 정규성을 가정하여 그 결과를 도출하는 동안 마르코프는 위에서 언급한 형식으로 가정들을 줄였다.[ 4] 비구형 오류에 대한 추가 일반화는 알렉산더 에이트켄에 의해 이루어졌다.[ 5]
선형 회귀 모델로서 목적 변수 Y와 p개의 설명 변수 X i , i = 1, ..., p 및 오차항 ε k {\displaystyle \varepsilon _{k}} 의 관계를 다음과 같이 모델화한 것을 생각한다.
Y k = β 0 + β 1 X 1 + β 2 X 2 + ⋯ + β p X p + ε k , k = 1 , … , n . {\displaystyle Y_{k}=\beta _{0}+\beta _{1}X_{1}+\beta _{2}X_{2}+\cdots +\beta _{p}X_{p}+\varepsilon _{k},\ k=1,\dots ,n.}
목적 변수 및 설명 변수 측정 결과의 조(yk ; x k, 1 ,...,xk,p ) 를 하나의 데이터로 하여 n( ≧ p)개의 데이터를 이용하여 잔차의 제곱합
∑ k = 1 n { y i − ( β 0 + β 1 x i , 1 + β 2 x i , 2 + ⋯ + β p x i , p ) } 2 {\displaystyle \sum _{k=1}^{n}\left\{y_{i}-(\beta _{0}+\beta _{1}x_{i,1}+\beta _{2}x_{i,2}+\cdots +\beta _{p}x_{i,p})\right\}^{2}}
가 최소가 되다 ( β 0 , β 1 , ⋯ , β p ) {\displaystyle (\beta _{0},\beta _{1},\cdots ,\beta _{p})} 를 최소 제곱 추정량이라고 부른다.여기서
Y = [ Y 1 Y 2 ⋮ Y n ] , X = [ 1 x 11 x 12 … x 1 p 1 x 21 x 22 … x 2 p ⋮ ⋮ ⋮ ⋮ 1 x n 1 x n 2 … x n p ] , β = [ β 0 β 1 ⋮ β p ] , ε = [ ε 1 ε 2 ⋮ ε n ] {\displaystyle \mathbf {Y} ={\begin{bmatrix}Y_{1}\\Y_{2}\\\vdots \\Y_{n}\end{bmatrix}},\ \mathbf {X} ={\begin{bmatrix}1&x_{11}&x_{12}&\dots &x_{1p}\\1&x_{21}&x_{22}&\dots &x_{2p}\\\vdots &\vdots &\vdots &&\vdots \\1&x_{n1}&x_{n2}&\dots &x_{np}\end{bmatrix}},\ {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{0}\\\beta _{1}\\\vdots \\\beta _{p}\end{bmatrix}},\ {\boldsymbol {\varepsilon }}={\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{bmatrix}}}
라고 놓으면 선형 회귀 모델은
Y = X β + ε {\displaystyle \mathbf {Y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}}
라며, 최소 제곱 추정량 β ^ {\displaystyle {\widehat {\boldsymbol {\beta }}}}
β ^ = ( X ⊤ X ) − 1 X ⊤ Y {\displaystyle {\widehat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }\mathbf {Y} }
으로 주어진다. 또한, 상부 첨자은 전치 행렬을 나타낸다.
오차항 ε {\displaystyle {\boldsymbol {\varepsilon }}} 에 대해서
E [ ε ] = 0 {\displaystyle E[{\boldsymbol {\varepsilon }}]=0} (불편성) Cov [ ε ] = σ 2 I {\displaystyle \operatorname {Cov} [{\boldsymbol {\varepsilon }}]=\sigma ^{2}{\boldsymbol {I}}} (등분산성·무상관성) 를 가정한다. 여기서 I {\displaystyle {\boldsymbol {I}}} 는 단위 행렬을 나타낸다.
무상관성은 독립성보다도 약한 가정이며, 또 정규 분포 등 특정 분포를 따르는 것을 가정하고 있지 않다.
최소 제곱 추정량 β ^ {\displaystyle {\widehat {\boldsymbol {\beta }}}} 는 최우수 선형 불편 추정량 (best linear unbiased estimator, BLUE )이다. 즉 임의의 선형 불편 추정량 β ~ {\displaystyle {\widetilde {\boldsymbol {\beta }}}} 에 대해서
Cov [ β ~ ] ⪰ Cov [ β ^ ] {\displaystyle \operatorname {Cov} \left[{\widetilde {\boldsymbol {\beta }}}\right]\succeq \operatorname {Cov} \left[{\widehat {\boldsymbol {\beta }}}\right]} 가 성립한다.
β ~ {\displaystyle {\widetilde {\boldsymbol {\beta }}}} 는 선형 추정량이므로 ( p + 1 ) {\displaystyle (p+1)} n {\displaystyle n} 행렬의 행렬 C {\displaystyle \mathbf {C} } 를 이용하여 β ~ = C Y {\displaystyle {\widetilde {\boldsymbol {\beta }}}=\mathbf {C} \mathbf {Y} } 고 하다. β ~ {\displaystyle {\widetilde {\boldsymbol {\beta }}}} 가 불편성을 갖기 위한 조건을 요구하면 E [ β ~ ] = C X β = β {\displaystyle E[{\widetilde {\boldsymbol {\beta }}}]=\mathbf {C} \mathbf {X} {\boldsymbol {\beta }}={\boldsymbol {\beta }}} 가 항등적으로 성립되기 때문에 C X = I {\displaystyle \mathbf {C} \mathbf {X} =\mathbf {I} } 이다.
다음에 β ~ {\displaystyle {\widetilde {\boldsymbol {\beta }}}} 의 분산 공분산 행렬을 정리하면
Cov [ β ~ ] = E [ ( C Y − β ) ( C Y − β ) ⊤ ] = E [ C ε ( C ε ) ⊤ ] = C E [ ε ε ⊤ ] C T = σ 2 C C ⊤ {\displaystyle {\begin{alignedat}{2}\operatorname {Cov} \left[{\widetilde {\boldsymbol {\beta }}}\right]&=E\left[(\mathbf {C} \mathbf {Y} -{\boldsymbol {\beta }})(\mathbf {C} \mathbf {Y} -{\boldsymbol {\beta }})^{\top }\right]\\&=E\left[\mathbf {C} {\boldsymbol {\varepsilon }}(\mathbf {C} {\boldsymbol {\varepsilon }})^{\top }\right]\\&=\mathbf {C} E[{\boldsymbol {\varepsilon }}{\boldsymbol {\varepsilon }}^{\top }]\mathbf {C} ^{T}\\&=\sigma ^{2}\mathbf {C} \mathbf {C} ^{\top }\end{alignedat}}} 가 된다 여기서 C ^ = ( X ⊤ X ) − 1 X ⊤ {\displaystyle {\hat {\mathbf {C} }}=(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\mathbf {X} ^{\top }} 라고 했을 때의 추정량이 최소 제곱 추정량 β ^ {\displaystyle {\widehat {\boldsymbol {\beta }}}} 이 되기 때문에 C C ⊤ ⪰ C ^ C ^ ⊤ {\displaystyle \mathbf {C} \mathbf {C} ^{\top }\succeq {\hat {\mathbf {C} }}{\hat {\mathbf {C} }}^{\top }} 을 나타내면 된다. 불편성보다 C X = I {\displaystyle \mathbf {C} \mathbf {X} =\mathbf {I} } 그래서
( C − C ^ ) C ^ ⊤ = ( C − C ^ ) X ( X ⊤ X ) − 1 = ( C X − C ^ X ) ( X ⊤ X ) − 1 = O {\displaystyle {\begin{alignedat}{2}(\mathbf {C} -{\hat {\mathbf {C} }}){\hat {\mathbf {C} }}^{\top }&=(\mathbf {C} -{\hat {\mathbf {C} }})\mathbf {X} (\mathbf {X} ^{\top }\mathbf {X} )^{-1}\\&=(\mathbf {C} \mathbf {X} -{\hat {\mathbf {C} }}\mathbf {X} )(\mathbf {X} ^{\top }\mathbf {X} )^{-1}\\&=\mathbf {O} \end{alignedat}}} 에 주의하면
C C ⊤ = ( C − C ^ + C ^ ) ( C − C ^ + C ^ ) ⊤ = ( C − C ^ ) ( C − C ^ ) ⊤ + C ^ C ^ ⊤ ⪰ C ^ C ^ ⊤ {\displaystyle {\begin{alignedat}{2}\mathbf {C} \mathbf {C} ^{\top }&=(\mathbf {C} -{\hat {\mathbf {C} }}+{\hat {\mathbf {C} }})(\mathbf {C} -{\hat {\mathbf {C} }}+{\hat {\mathbf {C} }})^{\top }\\&=(\mathbf {C} -{\hat {\mathbf {C} }})(\mathbf {C} -{\hat {\mathbf {C} }})^{\top }+{\hat {\mathbf {C} }}{\hat {\mathbf {C} }}^{\top }\\&\succeq {\hat {\mathbf {C} }}{\hat {\mathbf {C} }}^{\top }\end{alignedat}}} 가 성립한다. 따라서
Cov [ β ~ ] ⪰ Cov [ β ^ ] {\displaystyle \operatorname {Cov} \left[{\widetilde {\boldsymbol {\beta }}}\right]\succeq \operatorname {Cov} \left[{\widehat {\boldsymbol {\beta }}}\right]} 가 성립하며, 최소 제곱 추정량 β ^ {\displaystyle {\widehat {\boldsymbol {\beta }}}} 는 최우수 선형 불편 추정량이 된다.