변동(Variation)
관련내용
- 범위(range)
- 4분위수(Quantile)
- 중간값 절대 편차(MAD)
- 분산(Variance)
- 표준편차(Standard Deviation)
- 분산계수(Variation Coefficient)
범위(range)
데이터 셋의 범위를 의미합니다. 식 1과 같이 그 범위는 최대값과 최소값의 차이를 나타냅니다.
범위 = 최대값 - 최소값 | (식 1) |
---|
이 값은 numpy 함수인 max()
와 min()
을 사용하여 데이터 셋의 최대와 최소값을 결정한 후 두 값의 차이로 계산할 수 있습니다. 다음은 [1, 100) 사이에 랜덤수 50개를 추출한 후 그 범위를 산출한 것입니다.
- np.max(x, axis=None)
- 배열 객체 x에서 지정한 축에 따라 최대값을 반환
- axis: None일 경우 1차원 벡터로 자동 변환 후 최대값 반환
-
array.max(axis), pd객체.max(axis)
와 같음
- np.min(x, axis=None)
- 배열 객체 x에서 지정한 축에 따라 최소값을 반환
- axis: None일 경우 1차원 벡터로 자동 변환후 최소값 반환
-
array.min(axis)
, pd객체.min(axis)과 같음
np.random.seed(1) d=np.random.randint(1, 100, 5) d_max, d_min=np.max(d), np.min(d) d_max, d_min
(76, 10)
rng=d_max-d_min; rng
66
예)
다음 데이터들의 범위를 계산합니다.
A = {4, 6, 2, 4, 6, −4, −7, 45} |
B = {4, 6, 2, 4, 6, −4, −7, 145} |
A 의 범위 = 45 - (-7) = 52 |
B의 범위 = 145 - (-7) = 152 |
위 예에서 두 그룹 A와 B는 하나의 값을 제외하고 같습니다. 그러나 B의 최대값은 다른 값에 비해 현저한 차이를 보이는 이상치로 간주할 수 있으며 그 값으로 인해 두 그룹의 범위는 매우 큰 차이를 보입니다. 즉, 범위는 간편하게 산출되는 결과이지만 이상치(outlier)에 매우 민감 합니다.
이상치는 자료중에 다른 값들에 비해 현저한 변화를 보이는 값(들)로 사분위범위(Interquartile Range, IQR)를 기준으로 발견합니다. 이외에도 다양한 방법이 존재합니다.