[data analysis] 변동: 중간값 절대편차(Median Absolute Deviation)

변동(Variation)

중간값 절대 편차(MAD)

이상치에 민감한 평균을 대신하여 중간값을 사용할 수 있습니다. 변동 역시 중간값을 사용하여 이상치에 둔감한 지표를 사용할 수 있습니다. 즉, 데이터 셋의 각 값과 중간값의 차이들의 평균을 변동의 지표로 사용합니다.

중간값을 기준으로 그 자료의 각 값과의 편차들의 중간값을 자료의 변동을 대표하는 값으로 사용할 수 있습니다. 그러나 그 편차는 음과 양을 모두 포함하므로 그대로 사용할 경우 그 중간값은 0 또는 그에 근접한 값으로 왜곡된 결과를 나타냅니다. 예를 들어 {4, 5, 6, 8, 10, 11, 12}에 대한 중간값과의 편차의 합은 다음과 같이 0이 되므로 지표로 의미가 없습니다.

da=np.array([4, 5, 6, 8, 10, 11, 12])
md=np.median(da); md

8.0

dev=[md-i for i in da];dev

[4.0, 3.0, 2.0, 0.0, -2.0, -3.0, -4.0]

dev=da-md
np.median(dev)

0.0

이를 수정하기 위해 각 편차의 절대값을 사용하며 이 결과를 중간값 절대 편차(Median Absolute Deviation)이라 합니다. 그 통계량은 식 1과 같이 계산합니다.

MAD = median(|X − X_median|)

(식 1)

X_median는 자료 X의 중간값을 나타냅니다.

np.median(abs(dev))

3.0

MAD는 평균을 사용하는 표준편차와 유사하지만 이상치에 의한 영향이 적습니다. 이 지표의 계산 결과는 scipy.stats.median_abs_deviation(x) 함수에 확인할 수 있습니다.

scipy.stats.median_abs_deviation(x, axis=0)
- 지정한 축을 기준으로 절대 편차 중간값을 반환

stats.median_abs_deviation(da)

3.0

sons dataStory

이 블로그 검색

pandas_ta를 적용한 통계적 인덱스 지표

[data analysis] 변동: 중간값 절대편차(Median Absolute Deviation)

변동(Variation)

관련내용

중간값 절대 편차(MAD)

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

[sympy] Sympy객체의 표현을 위한 함수들

유리함수 그래프와 점근선 그리기