기본 콘텐츠로 건너뛰기

[matplotlib] 등고선(Contour)

[data analysis] 변동: 범위(Range)

변동(Variation)

관련내용

범위(range)

데이터 셋의 범위를 의미합니다. 식 1과 같이 그 범위는 최대값과 최소값의 차이를 나타냅니다.

범위 = 최대값 - 최소값 (식 1)

이 값은 numpy 함수인 max()min()을 사용하여 데이터 셋의 최대와 최소값을 결정한 후 두 값의 차이로 계산할 수 있습니다. 다음은 [1, 100) 사이에 랜덤수 50개를 추출한 후 그 범위를 산출한 것입니다.

  • np.max(x, axis=None)
    • 배열 객체 x에서 지정한 축에 따라 최대값을 반환
    • axis: None일 경우 1차원 벡터로 자동 변환 후 최대값 반환
    • array.max(axis), pd객체.max(axis)와 같음
  • np.min(x, axis=None)
    • 배열 객체 x에서 지정한 축에 따라 최소값을 반환
    • axis: None일 경우 1차원 벡터로 자동 변환후 최소값 반환
    • array.min(axis), pd객체.min(axis)과 같음
np.random.seed(1)
d=np.random.randint(1, 100, 5)
d_max, d_min=np.max(d), np.min(d)
d_max, d_min
(76, 10)
rng=d_max-d_min; rng
66

예)

다음 데이터들의 범위를 계산합니다.

A = {4, 6, 2, 4, 6, −4, −7, 45}
B = {4, 6, 2, 4, 6, −4, −7, 145}
A 의 범위 = 45 - (-7) = 52
B의 범위 = 145 - (-7) = 152

위 예에서 두 그룹 A와 B는 하나의 값을 제외하고 같습니다. 그러나 B의 최대값은 다른 값에 비해 현저한 차이를 보이는 이상치로 간주할 수 있으며 그 값으로 인해 두 그룹의 범위는 매우 큰 차이를 보입니다. 즉, 범위는 간편하게 산출되는 결과이지만 이상치(outlier)에 매우 민감 합니다.

이상치는 자료중에 다른 값들에 비해 현저한 변화를 보이는 값(들)로 사분위범위(Interquartile Range, IQR)를 기준으로 발견합니다. 이외에도 다양한 방법이 존재합니다.

댓글