변동(Variation)
관련내용
- 범위(range)
- 4분위수(Quantile)
- 중간값 절대 편차(MAD)
- 분산(Variance)
- 표준편차(Standard Deviation)
- 분산계수(Variation Coefficient)
중간값 절대 편차(MAD)
이상치에 민감한 평균을 대신하여 중간값을 사용할 수 있습니다. 변동 역시 중간값을 사용하여 이상치에 둔감한 지표를 사용할 수 있습니다. 즉, 데이터 셋의 각 값과 중간값의 차이들의 평균을 변동의 지표로 사용합니다.
중간값을 기준으로 그 자료의 각 값과의 편차들의 중간값을 자료의 변동을 대표하는 값으로 사용할 수 있습니다. 그러나 그 편차는 음과 양을 모두 포함하므로 그대로 사용할 경우 그 중간값은 0 또는 그에 근접한 값으로 왜곡된 결과를 나타냅니다. 예를 들어 {4, 5, 6, 8, 10, 11, 12}에 대한 중간값과의 편차의 합은 다음과 같이 0이 되므로 지표로 의미가 없습니다.
da=np.array([4, 5, 6, 8, 10, 11, 12]) md=np.median(da); md
8.0
dev=[md-i for i in da];dev
[4.0, 3.0, 2.0, 0.0, -2.0, -3.0, -4.0]
dev=da-md np.median(dev)
0.0
이를 수정하기 위해 각 편차의 절대값을 사용하며 이 결과를 중간값 절대 편차(Median Absolute Deviation)이라 합니다. 그 통계량은 식 1과 같이 계산합니다.
MAD = median(|X − Xmedian|) | (식 1) |
Xmedian는 자료 X의 중간값을 나타냅니다.
np.median(abs(dev))
3.0
MAD는 평균을 사용하는 표준편차와 유사하지만 이상치에 의한 영향이 적습니다. 이 지표의 계산 결과는 scipy.stats.median_abs_deviation(x)
함수에 확인할 수 있습니다.
- scipy.stats.median_abs_deviation(x, axis=0)
- 지정한 축을 기준으로 절대 편차 중간값을 반환
stats.median_abs_deviation(da)
3.0
댓글
댓글 쓰기