스튜던트 잔차(rstudent) 관련된 내용 회귀모형에서 이상치(outlier) 파악 Hat 행렬 레버리지(Leverage) Cook's Distance(D) 오차를 계산하기 위해 식 1과 같이 hat 행렬을 사용할 수 있습니다. \begin{align} \hat{y} &= Xb\\&=X(X^TX)^{-1}X^Ty \\&=Hy\\ e &= y-\hat{y}\\& = y-Hy\\ &=(1-H)y\end{align} (식 1) 식 1로부터 오차의 분산은 반응변수 y의 분산에 (1-H)를 곱한것과 같습니다( 확률과 주요통계량: 분산의 식3 참조 ). 설명변수의 영향을 나타내는 것이므로 H 대신 hat 행렬의 대각요소를 고려하면 식 1은 식 2와 같이 나타낼 수 있습니다. 또한 추정치들의 모분산(σ 2 ) 대신에 표본분산(s 2 )을 사용합니다. σ e 2 = (1 − h ii )s 2 (식 2) 식 2에서 계산된 각 샘플 오차의 분산을 사용하여 표준화할 수 있습니다. 오차는 평균이 0인 정규분포를 가정하므로 그 결과는 식 3과 같이 스튜던트 잔차(studentized residuals) 가 됩니다. \begin{align}\text{rstudent}&=\frac{\text{error}_i}{\sigma\sqrt{1-h_{ii}}}\\&\approx \frac{\text{error}_i}{s\sqrt{1-h_{ii}}} \end{align} (식 3) 생성한 모형에서 추정치들의 이상치 여부는 추정치와 관측치의 차이인 잔차(residuals)를 기반으로 판단할 수 있습니다. 즉, 이상치의 결정기준으로 잔차를 사용하기 위해 전체의 스케일을 표준화 또는 정규화시킨 값에 설명변수의 레버리지를 고려한 스튜던트 잔차(studentizedres residuals)를 사용합니다 잔차의 경우 데이터의 단위에 따라 스케일이 달라지는 반면 스튜던트 잔차의...
python 언어를 적용하여 통계(statistics)와 미적분(Calculus), 선형대수학(Linear Algebra)을 소개합니다. 이 과정에서 빅데이터를 다루기 위해 pytorch를 적용합니다.