기본 콘텐츠로 건너뛰기

라벨이 스튜던트 잔차인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 스튜던트 잔차(rstudent)

스튜던트 잔차(rstudent) 관련된 내용 회귀모형에서 이상치(outlier) 파악 Hat 행렬 레버리지(Leverage) Cook's Distance(D) 오차를 계산하기 위해 식 1과 같이 hat 행렬을 사용할 수 있습니다. \begin{align} \hat{y} &= Xb\\&=X(X^TX)^{-1}X^Ty \\&=Hy\\ e &= y-\hat{y}\\& = y-Hy\\ &=(1-H)y\end{align} (식 1) 식 1로부터 오차의 분산은 반응변수 y의 분산에 (1-H)를 곱한것과 같습니다( 확률과 주요통계량: 분산의 식3 참조 ). 설명변수의 영향을 나타내는 것이므로 H 대신 hat 행렬의 대각요소를 고려하면 식 1은 식 2와 같이 나타낼 수 있습니다. 또한 추정치들의 모분산(σ 2 ) 대신에 표본분산(s 2 )을 사용합니다. σ e 2 = (1 − h ii )s 2 (식 2) 식 2에서 계산된 각 샘플 오차의 분산을 사용하여 표준화할 수 있습니다. 오차는 평균이 0인 정규분포를 가정하므로 그 결과는 식 3과 같이 스튜던트 잔차(studentized residuals) 가 됩니다. \begin{align}\text{rstudent}&=\frac{\text{error}_i}{\sigma\sqrt{1-h_{ii}}}\\&\approx \frac{\text{error}_i}{s\sqrt{1-h_{ii}}} \end{align} (식 3) 생성한 모형에서 추정치들의 이상치 여부는 추정치와 관측치의 차이인 잔차(residuals)를 기반으로 판단할 수 있습니다. 즉, 이상치의 결정기준으로 잔차를 사용하기 위해 전체의 스케일을 표준화 또는 정규화시킨 값에 설명변수의 레버리지를 고려한 스튜던트 잔차(studentizedres residuals)를 사용합니다 잔차의 경우 데이터의 단위에 따라 스케일이 달라지는 반면 스튜던트 잔차의...