Cook's Distance(D i ) 관련된 내용 회귀모형에서 이상치(outlier) 파악 Hat 행렬 레버리지(Leverage) 스튜던트 잔차(rstudent) 잔차들 중의 이상치는 잔차의 크기가 이상적으로 크거나 작은 경우에 해당되며 이는 레버리지와 잔차 자신의 크기가 모두 관계됩니다. 이 둘의 영향을 모두 반영하는 기준이 Cook’s distance(D) 이며 식1과 같이 정의 됩니다. \begin{align}D_i& = \frac{(y_i-\hat{y_{(i)}})^2}{(p+1)\text{MSE}}\cdot \frac{h_{ii}}{(1-h_{ii})^2}\\ & y_{(i)}:\; x_i\text{를 제외한 자료로부터 구현된 모델을 적용한 추정치}\\ & p:\;\text{설명변수의 수} \end{align} (식 1) 식 1에서 Cook’s distance(D)는 잔차(첫번째항)와 레버리지(두번째항)에 의해 결정됩니다. 즉, 각 샘플의 설명변수(X)와 반응변수(y) 모두를 고려합니다. 그러므로 D i 값이 크다면 추정값들 사이의 차이가 크다는 것으로 모델에 가하는 영향이 크다는 것을 의미하며 결정수준보다 크다면 왜곡된 모형을 생성할 가능성이 증가할 것입니다. 이 지표의 결정수준으로 다음을 사용합니다. D i > 0.5: i번째 데이터 포인트가 영향을 미칠 수 있으므로 추가 조사 필요 D i > 1: i번째 데이터 포인트가 영향을 미칠 가능성이 높음 Cook's distance를 해석하는 다른 방법은 측정값을 F(k+1, n-k-1) 분포와 연관시키고 해당 백분위수 값을 찾는 것입니다. 이 백분위수가 약 10% 또는 20% 미만이면 케이스가 적합치에 거의 영향을 미치지 않는 것입니다. 반면에 50%에 가깝거나 그 이상이면 해당하는 샘플(들)이 큰 영향을 미칩니다. 요소들의 평균값을 기준으로 ...
python 언어를 적용하여 통계(statistics)와 미적분(Calculus), 선형대수학(Linear Algebra)을 소개합니다. 이 과정에서 빅데이터를 다루기 위해 pytorch를 적용합니다.