[data analysis] 회귀분석(Regression analysis)의 정의와 가정

회귀분석(Regression analysis)의 정의와 가정

회귀분석(Regression analysis)은 변수들간의 관계에 대한 모형을 설정하고 그 모형을 통해 새로운 값을 추정하는 통계적 방법입니다. 그림 1은 일정한 높이(x)에 대응되는 힘(y)에 대한 그래프로서 x가 증가할수록 y가 증가하는 정확한 정비례 관계를 보여줍니다. 이 관계는 일반적인 물리법칙을 적용한 것으로 높이에 따라 작용되는 힘을 정확하게 결정할 수 있습니다.

h=np.linspace(0, 5)
f=0.1*9.8*h
plt.figure(figsize=(4,3))
plt.plot(h, f, color="g", label="F=mgh\nm:0.1 kg")
plt.xlabel("h(m)")
plt.ylabel("F(N)")
plt.legend(loc="best")
plt.show()

그림 2는 x가 증가하면서 y의 증가를 보이지만 그림 1과 같이 완전한 선으로 미지의 값에 대한 적확한 예측을 하는 것은 어렵습니다. 그림에서 나타낸 것과 같이 각 x 점에 대응하는 y 값들의 관계식은 다양하게 존재할 것입니다. 이 상황에서 새로운 x에 대한 y를 추정하기 위한 가장 적합한 식(회귀모델)을 추론하는 것이 회귀분석의 최종적인 목적입니다. 이와 같이 두 변수 사이의 관계 모형을 확정하기 어려운 경우에서의 모델 구축은 확률적으로 이루어 집니다. 다시말하면 회귀분석은 확률론적 시각으로 데이터의 특성을 이해하고 미지의 값을 추론하는 주요한 통계적 방법입니다.

np.random.seed(3)
x=np.linspace(-1, 5, 100)
y=0.3*x+np.random.rand(100)
y1=0.56+0.4*x
y2=0.45+0.32*x
y3=0.2+0.44*x
y4=0.7+0.2*x
col=["brown",'b','r','k']
plt.figure(figsize=(4,3))
plt.scatter(x, y, color="g", s=20)
for i, j in enumerate([y1, y2, y3, y4]):
    plt.plot(x, j, color=col[i])
plt.xlabel("x")
plt.ylabel("y")
plt.show()

통계적 추론에는 크게 모수적 방법과 비모수방법으로 구분할 수 있습니다. 회귀분석은 기본적으로 확률에 근거한 분석으로 분석하려는 데이터들의 확률 분포를 확인 또는 가정한 후 그 분포를 기반으로 추론하는 모수(모집단의 매개변수)방법입니다. 모수적 방법을 실행할 경우 가정하는 확률분포는 매우 다양할 것으로 생각될 수 있으나 데이터의 크기 증가로 정규분포(중심극한 정리)를 가정할 수 있기 때문에 대부분의 분포에 기반되는 정규분포를 적용할 수 있습니다.

회귀 모델의 계수를 적절하게 해석하기 위해서는 다음의 통계적 가정이 필요합니다.

정규성(Normality): 반응변수는 정규분포를 따릅니다.
독립성(Independence): 2개 이상의 설명변수들은 각각은 독립적이어야 합니다.
선형성(Linearity): 각 변수에 적용되는 함수들에 의한 결과의 합은 전체 변수의 합의 변형과 같아야 합니다. 즉, f(x+y) = f(x) + f(y), f(ax) = af(x)의 두 관계를 충족할 경우 선형성이 확보됩니다. 이 관계는 각 변수의 분포와 그 결과에 대한 분포의 평균과 분산의 관계에 적용할 수 있습니다.
반응변수는 설명변수와 선형적으로 관계됩니다. 그러므로 예측값과 실측값 사이의 차이인 잔차(residual)는 특정한 경향(추세)은 존재하지 않습니다.
등분산성(Homoscedasticity): 반응 변수의 분산은 설명 변수의 수준에 따라 달라지지 않습니다. 즉, 회귀계수의 변화에 따른 각 샘플의 변화가 이루는 분포의 분산은 같아야 합니다. 결과적으로 잔차 각각이 이루는 분포의 분산은 같아야 합니다.

회귀모델은 의해 설명변수와 반응변수간의 확률적 식을 구현하는 것으로 이 식에 의해 반응변수를 예측할 수 있습니다. 이 식은 확률식이므로 반응변수의 실측치와 예측치사이에 차이가 존재합니다. 모집단에서의 차이를 오차(error)라 하며 표본에서의 차이를 잔차(residual)이라 합니다.

위 가정들이 충족되지 않는다면 통계적인 p-값과 신뢰구간의 정확도는 감소됩니다.

sons dataStory

이 블로그 검색

pandas_ta를 적용한 통계적 인덱스 지표

[data analysis] 회귀분석(Regression analysis)의 정의와 가정

회귀분석(Regression analysis)의 정의와 가정

태그

댓글

댓글 쓰기