회귀모델의 오차(Error, Residual)에 대해
관련된 내용
생성된 회귀모형은 통계적으로 검정(test)할 필요가 있으며 검정의 주요한 객체는 식 1과 같이 계산되는 관찰치와 추정치의 차이인 오차(error)가 됩니다.
\begin{align} e & = y − (b_0+ b_1x)\\ &=y − \hat{y}\\& e: \text{오차 또는 잔차}\\ &\hat{y}: \text{추정치}\end{align} | (식 1) |
회귀모형의 오차는 다음의 전제조건을 갖습니다.
- 정규분포를 따르는 확률변수
- 오차항의 등분산성(homoscedastic)
- 시점이 다른 오차들 사이에 자기상관 (autocorrelation) 없음
설명변수들은 정규 분포를 따르는 확률변수이므로 그 반응변수와 추정치 사이에서 발생되는 오차 역시 정규분포를 따르는 확률 변수가 됩니다. 이것은 오차를 인위적으로 조정할 수 없다는 의미입니다.
동일한 자료에서 다양한 회귀모형이 가능합니다. 즉, 다양한 회귀계수들이 존재하므로 표 1에서 나타낸 것과 같이 1개의 샘플(설명변수와 반응변수의 1쌍)에서 생성되는 다양한 추정치들에 대한 분포를 생성할 수 있습니다.
설명변수 | 반응변수 | 추정치 | 오차들 | 분포 |
x1 | y1 | p11, p12, … | e11(= y1-p11), e12, … | e1,bar, σe1 |
x2 | y2 | p21, p22, … | e21, e22, … | e2,bar, σe2 |
⋮ | ⋮ | ⋮ | ⋮ | ⋮ |
표 1에서 나타낸 것과 같이 샘플당 다양한 추정치에 의한 오차분포를 형성하며 그 분포의 분산은 회귀계수에 의해 결정됩니다. 회귀계수는 모든 샘플들에 동일하게 적용되므로 모든 샘플의 오차분포들은 동일한 분산을 가질 것입니다. 그러므로 회귀모델에서 생성되는 오차 분포들의 등분산성(homoscedastic)을 가정할 수 있습니다. 회귀모델에 의한 오차의 등분산성 가정의 성립여부는 Breusch-Pegan 검정으로 판단할 수 있습니다.
등분산성은 설명변수의 독립성이 전제되어야 합니다. 즉, 설명변수가 확률변수이어야 하지만 시계열(time series)이나 그러한 특성을 포함하는 자료의 경우 각 데이터는 이전의 내용에 영향을 받기 때문에 등분산성 가정이 부합하기는 쉽지 않습니다. 이 가정을 충족시키기 위한 다양한 회귀분석 방법이 존재합니다.
댓글
댓글 쓰기