[data analysis] 회귀모델의 오차에 대해

회귀모델의 오차(Error, Residual)에 대해

관련된 내용

생성된 회귀모형은 통계적으로 검정(test)할 필요가 있으며 검정의 주요한 객체는 식 1과 같이 계산되는 관찰치와 추정치의 차이인 오차(error)가 됩니다.

\begin{align} e & = y − (b_0+ b_1x)\\ &=y − \hat{y}\\& e: \text{오차 또는 잔차}\\ &\hat{y}: \text{추정치}\end{align}

(식 1)

회귀모형의 오차는 다음의 전제조건을 갖습니다.

정규분포를 따르는 확률변수
오차항의 등분산성(homoscedastic)
시점이 다른 오차들 사이에 자기상관 (autocorrelation) 없음

설명변수들은 정규 분포를 따르는 확률변수이므로 그 반응변수와 추정치 사이에서 발생되는 오차 역시 정규분포를 따르는 확률 변수가 됩니다. 이것은 오차를 인위적으로 조정할 수 없다는 의미입니다.

동일한 자료에서 다양한 회귀모형이 가능합니다. 즉, 다양한 회귀계수들이 존재하므로 표 1에서 나타낸 것과 같이 1개의 샘플(설명변수와 반응변수의 1쌍)에서 생성되는 다양한 추정치들에 대한 분포를 생성할 수 있습니다.

표 1 다양한 회귀계수들의 영향
설명변수	반응변수	추정치	오차들	분포
x₁	y₁	p₁₁, p₁₂, …	e₁₁(= y₁-p₁₁), e₁₂, …	e_1,bar, σ_e1
x₂	y₂	p₂₁, p₂₂, …	e₂₁, e₂₂, …	e_2,bar, σ_e2
⋮	⋮	⋮	⋮	⋮

표 1에서 나타낸 것과 같이 샘플당 다양한 추정치에 의한 오차분포를 형성하며 그 분포의 분산은 회귀계수에 의해 결정됩니다. 회귀계수는 모든 샘플들에 동일하게 적용되므로 모든 샘플의 오차분포들은 동일한 분산을 가질 것입니다. 그러므로 회귀모델에서 생성되는 오차 분포들의 등분산성(homoscedastic)을 가정할 수 있습니다. 회귀모델에 의한 오차의 등분산성 가정의 성립여부는 Breusch-Pegan 검정으로 판단할 수 있습니다.

등분산성은 설명변수의 독립성이 전제되어야 합니다. 즉, 설명변수가 확률변수이어야 하지만 시계열(time series)이나 그러한 특성을 포함하는 자료의 경우 각 데이터는 이전의 내용에 영향을 받기 때문에 등분산성 가정이 부합하기는 쉽지 않습니다. 이 가정을 충족시키기 위한 다양한 회귀분석 방법이 존재합니다.

sons dataStory

이 블로그 검색

pandas_ta를 적용한 통계적 인덱스 지표

[data analysis] 회귀모델의 오차에 대해

회귀모델의 오차(Error, Residual)에 대해

관련된 내용

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

유리함수 그래프와 점근선 그리기

[sympy] Sympy객체의 표현을 위한 함수들