변동(Variation)
관련내용
- 범위(range)
- 4분위수(Quantile)
- 중간값 절대 편차(MAD)
- 분산(Variance)
- 표준편차(Standard Deviation)
- 분산계수(Variation Coefficient)
범위(range)
데이터 셋의 범위를 의미합니다. 식 1과 같이 그 범위는 최대값과 최소값의 차이를 나타냅니다.
범위 = 최대값 - 최소값 | (식 1) |
---|
이 값은 numpy 함수인 max()
와 min()
을 사용하여 데이터 셋의 최대와 최소값을 결정한 후 두 값의 차이로 계산할 수 있습니다. 다음은 [1, 100) 사이에 랜덤수 50개를 추출한 후 그 범위를 산출한 것입니다.
- np.max(x, axis=None)
- 배열 객체 x에서 지정한 축에 따라 최대값을 반환
- axis: None일 경우 1차원 벡터로 자동 변환 후 최대값 반환
-
array.max(axis), pd객체.max(axis)
와 같음
- np.min(x, axis=None)
- 배열 객체 x에서 지정한 축에 따라 최소값을 반환
- axis: None일 경우 1차원 벡터로 자동 변환후 최소값 반환
-
array.min(axis)
, pd객체.min(axis)과 같음
np.random.seed(1) d=np.random.randint(1, 100, 5) d_max, d_min=np.max(d), np.min(d) d_max, d_min
(76, 10)
rng=d_max-d_min; rng
66
예)
다음 데이터들의 범위를 계산합니다.
A = {4, 6, 2, 4, 6, −4, −7, 45} |
B = {4, 6, 2, 4, 6, −4, −7, 145} |
A 의 범위 = 45 - (-7) = 52 |
B의 범위 = 145 - (-7) = 152 |
위 예에서 두 그룹 A와 B는 하나의 값을 제외하고 같습니다. 그러나 B의 최대값은 다른 값에 비해 현저한 차이를 보이는 이상치로 간주할 수 있으며 그 값으로 인해 두 그룹의 범위는 매우 큰 차이를 보입니다. 즉, 범위는 간편하게 산출되는 결과이지만 이상치(outlier)에 매우 민감 합니다.
이상치는 자료중에 다른 값들에 비해 현저한 변화를 보이는 값(들)로 사분위범위(Interquartile Range, IQR)를 기준으로 발견합니다. 이외에도 다양한 방법이 존재합니다.
댓글
댓글 쓰기