기본 콘텐츠로 건너뛰기

라벨이 중심척도인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 중심척도: 중간값(median)

중심척도 관련내용 최빈값(Mode) 평균(Mean) 중간값(Median) 중간값(Median) 데이터의 중심은 값들이 몰려있는 부분에 집중되는 지점입니다. 평균(mean) 은 그 지점을 결정하는 방법이지만 이상치의 존재 등으로 전체의 중심을 왜곡할 가능성이 존재합니다. 평균의 약점을 보완할 수 있는 다른 중심 측정치로 중간값(Median) 을 사용할 수 있습니다. 예를 들어 인원 9명인 그룹의 다이어트 처방을 위해 약함과 강함으로 분류하고자 할 경우 처방의 근거는 그 그룹의 평균 몸무게를 기준으로 구분할 수 있습니다. 그러나 다음의 결과와 같이 문제를 제시할 수 있습니다. weight=np.array([38, 35, 45, 30, 48, 33, 42, 39,100]) print(weight) [ 38, 35, 45, 30, 48, 33, 42, 39, 100] print('%.3f'%weight.mean()) 45.556 print('%.3f'%weight[:-1].mean())#이상치를 제외한 경우 38.750 위 코드에서 나타낸 것과 같이 그 그룹의 일원 중 한 명의 몸무게는 나머지에 비해 현격한 차이를 보입니다. 즉, 이상치인 값이 포함되어 있습니다. 이 상태에서 평균 몸무게는 약 45.6 kg 이지만 이상치를 제외한 경우 평균은 약 38.8 kg으로 상이한 차이가 존재합니다. 강한 또는 약한 처방의 기준이 위의 두 값 사이에 존재하는 경우 불필요한 처방이 이루어질 수 있습니다. 이와 같이 이상치가 존재할 경우 평균은 그 값에 매우 민감하므로 바람직하지 않은 판단의 근거로 작용할 가능성을 가집니다. 평균 대신 데이터들 중간에 위치한 값을 중심을 대표하는 위치값으로 사용할 수 있습니다. 이러한 측정치를 중간값 (median) 으로 정의합니다. [중간값(Median)] 데이터 셋의 중간에 위치하는 값으로 다음 과정으로 산출합니다. 모든 값을 올림차순 또는 내림차순으...

[data analysis]중심척도: 평균(Mean)

중심척도 관련내용 최빈값(Mode) 평균(Mean) 중간값(Median) 평균(Mean) 연속형 변수의 경우 데이터 셋의 최빈값을 결정할 수 없습니다. 대신에 식 1과 같이 계산한 산술평균(average)을 중심의 척도로서 사용합니다. 일반적으로 산술평균을 평균(mean, μ) 이라 합니다. $$\mu=\frac{\sum^N_{i=0} x_i}{N}$$ (식 1) 식 1에서 N은 데이터의 총수, x는 데이터 값을 나타냅니다. 예를 들어 다음은 한 학생의 1, 2학기의 중간과 기말의 등급은 [6, 8, 9, 5]입니다.이들의 평균을 계산하면 식 2와 같습니다. μ =  6 + 8 + 9 + 5 (식 2) 4 평균은 다음 코드와 같이 반복문을 사용하여 계산할 수 있지만 python의 다양한 패키지에서 제공하는 평균 산출을 위한 함수나 메소드를 사용할 수 있습니다. 다음 코드는 np.mean() 함수를 적용한 결과입니다. id="npMean"> numpy.mean(x, axis=none, skipna=na) 객체 x는 numpy array 형 지정한 축을 기준으로 산술평균을 계산 (= x.mean(axis=none) ) x.mean()의 경우 객체 x는 array, pandas 자료형인 DataFrame, Series 형 모두 가능 axis: 연산 기준 축 지정, axis: 0(기본값, 열평균), 1(행평균) 자료가 결측치를 포함할 경우 처리 방식을 인자 skipna에 지정하며 기본값은 결측치를 무시합니다. grade=[6, 8, 9, 5] total=0 for i in grade: total +=i total 28 mu=total/len(grade); mu 7.0 np.mean(grade) 7.0 예) 다음의 빈도표로부터 평균을 계산합니다. 값 빈도 2 4 5 8 8 ...

[data analysis] 중심척도: 최빈값(Mode)

중심척도 관련내용 최빈값(Mode) 평균(Mean) 중간값(Median) 최빈값(Mode) 통계에서는 종종 데이터의 많은 부분이 집중되는 지점의 정보가 중요하게 사용됩니다. 그 점은 전체 데이터에 대한 중심의 척도 로 사용됩니다. 예를 들어 여러가지 메뉴를 가지는 레스토랑에서 새로운 단장 이후에 경영자는 1가지 메뉴로 집중하고자 합니다. 이 경우 가장 많은 매출이 있는 메뉴를 선택하는 것은 합리적인 결정이 됩니다. 이와 같이 데이터 전체 중에서 가장 많이 관찰된 값을 최빈값(mode) 이라 합니다. [최빈값(mode)] 데이터 셋의 각 변수가 등장하는 빈도수에서 가장 높은 빈도수를 가진 값을 최빈값이 라고 합니다. 데이터 셋에서 최빈값은 1개 이상이 될 수 있습니다. 최빈값은 가장 높은 빈도수인 정상점(peak)을 나타내기 위해 사용하는 것으로서 파이썬의 여러 패키지로부터의 함수나 메소드를 사용하여 계산할 수 있습니다. np.unique(x, return_index=False, return_counts=False, axis=None) 객체 x에서 고유한 요소들과 각각의 빈도를 반환 return_index: 반환된 요소들의 인덱스 (첫 번째로 감지되는 인덱스) return_counts: 각 고유값(unique)의 빈도수 axis=None: 함수가 실행되는 기준 축, None는 객체를 1차원으로 전환 scipy.stats.mode(x, axis=0, keepdims=True) 객체 x의 지정한 축(axis)에 따라 최빈값(들)을 결정합니다. x는 수치형 으로 구성된 객체이어야 합니다. DataFrame.mode(axis=0, numeric_only=False, dropna=True) 지정한 축을 따라 최빈값을 반환 pd객체.value_counts(normalize=False, sort=True, ascending=False, dropna=True) 고유한 ...