기본 콘텐츠로 건너뛰기

[matplotlib] 등고선(Contour)

[data analysis] 회귀모델의 오차에 대해

회귀모델의 오차(Error, Residual)에 대해

관련된 내용

생성된 회귀모형은 통계적으로 검정(test)할 필요가 있으며 검정의 주요한 객체는 식 1과 같이 계산되는 관찰치와 추정치의 차이인 오차(error)가 됩니다.

\begin{align} e & = y − (b_0+ b_1x)\\ &=y − \hat{y}\\& e: \text{오차 또는 잔차}\\ &\hat{y}: \text{추정치}\end{align}(식 1)

회귀모형의 오차는 다음의 전제조건을 갖습니다.

  • 정규분포를 따르는 확률변수
  • 오차항의 등분산성(homoscedastic)
  • 시점이 다른 오차들 사이에 자기상관 (autocorrelation) 없음

설명변수들은 정규 분포를 따르는 확률변수이므로 그 반응변수와 추정치 사이에서 발생되는 오차 역시 정규분포를 따르는 확률 변수가 됩니다. 이것은 오차를 인위적으로 조정할 수 없다는 의미입니다.

동일한 자료에서 다양한 회귀모형이 가능합니다. 즉, 다양한 회귀계수들이 존재하므로 표 1에서 나타낸 것과 같이 1개의 샘플(설명변수와 반응변수의 1쌍)에서 생성되는 다양한 추정치들에 대한 분포를 생성할 수 있습니다.

표 1 다양한 회귀계수들의 영향
설명변수반응변수추정치오차들분포
x1y1p11, p12, …e11(= y1-p11), e12, …e1,bar, σe1
x2y2p21, p22, …e21, e22, …e2,bar, σe2

표 1에서 나타낸 것과 같이 샘플당 다양한 추정치에 의한 오차분포를 형성하며 그 분포의 분산은 회귀계수에 의해 결정됩니다. 회귀계수는 모든 샘플들에 동일하게 적용되므로 모든 샘플의 오차분포들은 동일한 분산을 가질 것입니다. 그러므로 회귀모델에서 생성되는 오차 분포들의 등분산성(homoscedastic)을 가정할 수 있습니다. 회귀모델에 의한 오차의 등분산성 가정의 성립여부는 Breusch-Pegan 검정으로 판단할 수 있습니다.

등분산성은 설명변수의 독립성이 전제되어야 합니다. 즉, 설명변수가 확률변수이어야 하지만 시계열(time series)이나 그러한 특성을 포함하는 자료의 경우 각 데이터는 이전의 내용에 영향을 받기 때문에 등분산성 가정이 부합하기는 쉽지 않습니다. 이 가정을 충족시키기 위한 다양한 회귀분석 방법이 존재합니다.

댓글