회귀모델의 오차(Error, Residual)에 대해 관련된 내용 자기상관분석(Autocorrelation Analysis) 오차제곱평균(Mean of Square Error) 오차의 분산 생성된 회귀모형은 통계적으로 검정(test)할 필요가 있으며 검정의 주요한 객체는 식 1과 같이 계산되는 관찰치와 추정치의 차이인 오차(error)가 됩니다. \begin{align} e & = y − (b_0+ b_1x)\\ &=y − \hat{y}\\& e: \text{오차 또는 잔차}\\ &\hat{y}: \text{추정치}\end{align} (식 1) 회귀모형의 오차는 다음의 전제조건을 갖습니다. 정규분포를 따르는 확률변수 오차항의 등분산성(homoscedastic) 시점이 다른 오차들 사이에 자기상관 (autocorrelation) 없음 설명변수들은 정규 분포를 따르는 확률변수이므로 그 반응변수와 추정치 사이에서 발생되는 오차 역시 정규분포를 따르는 확률 변수가 됩니다. 이것은 오차를 인위적으로 조정할 수 없다는 의미입니다. 동일한 자료에서 다양한 회귀모형이 가능합니다. 즉, 다양한 회귀계수들이 존재하므로 표 1에서 나타낸 것과 같이 1개의 샘플(설명변수와 반응변수의 1쌍)에서 생성되는 다양한 추정치들에 대한 분포를 생성할 수 있습니다. 표 1 다양한 회귀계수들의 영향 설명변수 반응변수 추정치 오차들 분포 x 1 y 1 p 11 , p 12 , … e 11 (= y 1 -p 11 ), e 12 , … e 1,bar , σ e1 x 2 y 2 p 21 , p 22 , … e 21 , e 22 , … e 2,bar , σ e2 ⋮ ⋮ ⋮ ⋮ ⋮ 표 1에서 나타낸 것과 같이 샘플당 다양한 추정치에 의한 오차분포를 형성하며 그 분포의 분산은 회귀계수에 의해 결정됩니다. 회귀계수는 모든 샘플들에 동일하게 적용되므로 모든 샘플의 오차분포들은 동일한 분산을 가질 것입니다. 그러므로 회귀...
python 언어를 적용하여 통계(statistics)와 미적분(Calculus), 선형대수학(Linear Algebra)을 소개합니다. 이 과정에서 빅데이터를 다루기 위해 pytorch를 적용합니다.