기본 콘텐츠로 건너뛰기

라벨이 MAD인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 변동: 중간값 절대편차(Median Absolute Deviation)

변동(Variation) 관련내용 범위(range) 4분위수(Quantile) 중간값 절대 편차(MAD) 분산(Variance) 표준편차(Standard Deviation) 분산계수(Variation Coefficient) 중간값 절대 편차(MAD) 이상치에 민감한 평균을 대신하여 중간값 을 사용할 수 있습니다. 변동 역시 중간값을 사용하여 이상치에 둔감한 지표를 사용할 수 있습니다. 즉, 데이터 셋의 각 값과 중간값의 차이들의 평균을 변동의 지표로 사용합니다. 중간값을 기준으로 그 자료의 각 값과의 편차들의 중간값을 자료의 변동을 대표하는 값으로 사용할 수 있습니다. 그러나 그 편차는 음과 양을 모두 포함하므로 그대로 사용할 경우 그 중간값은 0 또는 그에 근접한 값으로 왜곡된 결과를 나타냅니다. 예를 들어 {4, 5, 6, 8, 10, 11, 12}에 대한 중간값과의 편차의 합은 다음과 같이 0이 되므로 지표로 의미가 없습니다. da=np.array([4, 5, 6, 8, 10, 11, 12]) md=np.median(da); md 8.0 dev=[md-i for i in da];dev [4.0, 3.0, 2.0, 0.0, -2.0, -3.0, -4.0] dev=da-md np.median(dev) 0.0 이를 수정하기 위해 각 편차의 절대값을 사용하며 이 결과를 중간값 절대 편차(Median Absolute Deviation) 이라 합니다. 그 통계량은 식 1과 같이 계산합니다. MAD = median(|X − X median |) (식 1) X median 는 자료 X의 중간값을 나타냅니다. np.median(abs(dev)) 3.0 MAD는 평균을 사용하는 표준편차와 유사하지만 이상치에 의한 영향이 적습니다. 이 지표의 계산 결과는 scipy.stats.median_abs_deviation(x) 함수에 확인할 수 있습니다. scipy.stats.median_abs_deviation(x,...