중심척도
관련내용
평균(Mean)
연속형 변수의 경우 데이터 셋의 최빈값을 결정할 수 없습니다. 대신에 식 1과 같이 계산한 산술평균(average)을 중심의 척도로서 사용합니다. 일반적으로 산술평균을 평균(mean, μ)이라 합니다.
$$\mu=\frac{\sum^N_{i=0} x_i}{N}$$ | (식 1) |
식 1에서 N은 데이터의 총수, x는 데이터 값을 나타냅니다.
예를 들어 다음은 한 학생의 1, 2학기의 중간과 기말의 등급은 [6, 8, 9, 5]입니다.이들의 평균을 계산하면 식 2와 같습니다.
μ = | 6 + 8 + 9 + 5 | (식 2) |
4 |
평균은 다음 코드와 같이 반복문을 사용하여 계산할 수 있지만 python의 다양한 패키지에서 제공하는 평균 산출을 위한 함수나 메소드를 사용할 수 있습니다. 다음 코드는 np.mean()
함수를 적용한 결과입니다.
- id="npMean"> numpy.mean(x, axis=none, skipna=na)
- 객체 x는 numpy array 형
- 지정한 축을 기준으로 산술평균을 계산 (=
x.mean(axis=none)
)
x.mean()의 경우 객체 x는 array, pandas 자료형인 DataFrame, Series 형 모두 가능 - axis: 연산 기준 축 지정, axis: 0(기본값, 열평균), 1(행평균)
- 자료가 결측치를 포함할 경우 처리 방식을 인자 skipna에 지정하며 기본값은 결측치를 무시합니다.
grade=[6, 8, 9, 5] total=0 for i in grade: total +=i total
28
mu=total/len(grade); mu
7.0
np.mean(grade)
7.0
예)
다음의 빈도표로부터 평균을 계산합니다.
값 | 빈도 |
---|---|
2 | 4 |
5 | 8 |
8 | 6 |
각 값의 빈도수가 제시된 것으로 데이터 셋에서 그 값의 총합은 값·빈도 가 됩니다. 평균은 식 3와 같이계산됩니다.
μ = | 2·4 + 5·8 + 8·6 | (식 3) |
4 + 8 + 6 |
값들의 수 또는 변수의 수가 많을 경우 행렬 연산을 적용하는 것이 보다 유용합니다. 다음 코드는 식 4와 같이 실행되는 행렬곱을 적용하기 위해 np.dot(x, y)
함수를 사용한 것입니다.
- numpy.dot(x,y)
- 객체 x와 y의 행렬곱 결과를 반환
$$\begin{bmatrix} x_1&x_2&\cdots&x_n\end{bmatrix} \begin{bmatrix}f_1\\f_2\\\vdots\\f_n \end{bmatrix}=x_1f_1+x_2f-2+\cdots+x_nf_n$$ | (식 4) |
value=np.array([2, 5, 8]) frequency=np.array([[4],[8],[6]]) total=np.dot(value, frequency) print(total)
[96]
mu=total/np.sum(frequency) print(mu.round(2))
[5.33]
예)
평균이 15, 총합이 315인 경우 데이터 크기를 결정합니다.
조건에 따른 데이터의 크기는 식 1.2.2를 적용하여 식 1.2.6과 같이 결정합니다.
15 = | 315 | (식 1.2.6) |
n | ||
→ n = | 315 | |
15 |
mu=15 total=315 n=total/mu n
21.0
다음의 데이터 셋에는 다른 값들과 두드러진 차이를 보이는 값(들)을 포함할 수 있으며 이러한 값을 이상치(outlier)라고 합니다. 평균은 식 1에서 나타낸 것과 같이 모든 수의 합을 다룹니다. 그러므로 평균은 본질적으로 이러한 이상치에 매우 민감합니다.
np.random.seed(0) data=np.random.randint(1, 5, 10) print(data)
[1 4 2 1 4 4 4 4 2 4]
data.mean()
3.0
data1=np.append([100], [data[1:]]) print(data1)
[100 4 2 1 4 4 4 4 2 4]
data1.mean()
12.9
data1[1:].mean().round(3) #이상치를 제외한 평균
3.222
평균은 이상치 등의 조절과 함께 데이터 셋의 훌륭한 중심 위치정보를 제공하며 그 데이터의 대표값으로 사용할 수 있습니다. 특히 자료의 크기가 증가할수록 대표값으로 평균의 신뢰도는 증가합니다.
댓글
댓글 쓰기