중심척도

평균(Mean)

연속형 변수의 경우 데이터 셋의 최빈값을 결정할 수 없습니다. 대신에 식 1과 같이 계산한 산술평균(average)을 중심의 척도로서 사용합니다. 일반적으로 산술평균을 평균(mean, μ)이라 합니다.

$$\mu=\frac{\sum^N_{i=0} x_i}{N}$$

(식 1)

식 1에서 N은 데이터의 총수, x는 데이터 값을 나타냅니다.

예를 들어 다음은 한 학생의 1, 2학기의 중간과 기말의 등급은 [6, 8, 9, 5]입니다.이들의 평균을 계산하면 식 2와 같습니다.

μ =	6 + 8 + 9 + 5	(식 2)
	4

평균은 다음 코드와 같이 반복문을 사용하여 계산할 수 있지만 python의 다양한 패키지에서 제공하는 평균 산출을 위한 함수나 메소드를 사용할 수 있습니다. 다음 코드는 np.mean() 함수를 적용한 결과입니다.

grade=[6, 8, 9, 5]
total=0
for i in grade:
    total +=i
total

mu=total/len(grade); mu

7.0

np.mean(grade)

7.0

예)

다음의 빈도표로부터 평균을 계산합니다.

각 값의 빈도수가 제시된 것으로 데이터 셋에서 그 값의 총합은 값·빈도 가 됩니다. 평균은 식 3와 같이계산됩니다.

μ =	2·4 + 5·8 + 8·6	(식 3)
	4 + 8 + 6

값들의 수 또는 변수의 수가 많을 경우 행렬 연산을 적용하는 것이 보다 유용합니다. 다음 코드는 식 4와 같이 실행되는 행렬곱을 적용하기 위해 np.dot(x, y) 함수를 사용한 것입니다.

$$\begin{bmatrix} x_1&x_2&\cdots&x_n\end{bmatrix} \begin{bmatrix}f_1\\f_2\\\vdots\\f_n \end{bmatrix}=x_1f_1+x_2f-2+\cdots+x_nf_n$$

(식 4)

value=np.array([2, 5, 8])
frequency=np.array([[4],[8],[6]])
total=np.dot(value, frequency)
print(total)

[96]

mu=total/np.sum(frequency)
print(mu.round(2))

[5.33]

예)

평균이 15, 총합이 315인 경우 데이터 크기를 결정합니다.

조건에 따른 데이터의 크기는 식 1.2.2를 적용하여 식 1.2.6과 같이 결정합니다.

mu=15
total=315
n=total/mu
n

21.0

다음의 데이터 셋에는 다른 값들과 두드러진 차이를 보이는 값(들)을 포함할 수 있으며 이러한 값을 이상치(outlier)라고 합니다. 평균은 식 1에서 나타낸 것과 같이 모든 수의 합을 다룹니다. 그러므로 평균은 본질적으로 이러한 이상치에 매우 민감합니다.

np.random.seed(0)
data=np.random.randint(1, 5, 10)
print(data)

[1 4 2 1 4 4 4 4 2 4]

data.mean()

3.0

data1=np.append([100], [data[1:]])
print(data1)

[100   4   2   1   4   4   4   4   2   4]

data1.mean()

12.9

data1[1:].mean().round(3) #이상치를 제외한 평균

3.222

평균은 이상치 등의 조절과 함께 데이터 셋의 훌륭한 중심 위치정보를 제공하며 그 데이터의 대표값으로 사용할 수 있습니다. 특히 자료의 크기가 증가할수록 대표값으로 평균의 신뢰도는 증가합니다.