내용
표준편차와 표준오차
자료의 특성을 나타내는 기본적인 통계량은 평균과 분산이 있습니다. 평균은 자료의 중심을 나타내고 퍼짐 정도는 분산으로 표시합니다. 분산의 제곱근이 표준편차이므로 이 통계량의 단위는 자료와 같기 때문에 분산보다는 표준편차를 더 유용하게 사용됩니다.
표준편차는 자료의 퍼짐성을 나타내는 자료로서 모집단의 표준편차(σ)를 알 수 없는 경우 식 1과 같이 계산된 표본표준편차(s)를 사용합니다.
$$\begin{align}\tag{1}&\text{s}=\sqrt{\frac{\sum^n_{i=1}(x_i - \overline{x})^2}{n-1}}\\ &\text{s}: \text{표본표준편차}\\&n: \text{표본수}\end{align}$$식 1에서 분모는 자유도(degree of freedom, df) 입니다.
자유도는 자료의 값들이 확률 변수가 될 수 있는 정도를 의미합니다. 예를 들어 1, 2, 3의 값을 가진 표본의 경우 그 자료에 세 값이 나타날 확률은 동일하기 때문에 3 값 모두 확률변수가 되며 자유도는 3이 됩니다. 그러나 평균과 2개의 값을 안다면 나머지 값은 결정되므로 확률변수가 될 규모는 3개에서 2개로 감소됩니다. 이와 같이 자료의 통계량에 의해 자유도는 감소합니다. 그러므로 평균을 알려진 자료의 경우 자유도는 자료의 크기에서 1만큼 감소됩니다.
표준편차는 평균을 기준으로 각 자료의 퍼짐의 정도를 나타내는 것으로서 표본 수가 아니라 표본의 자유도를 고려해야 합니다. 이렇게 계산된 표준편차는 자료의 각 값과 평균과의 편차의 정도를 나타냅니다.
모평균을 모르는 경우 표본을 기준으로 통계적 분석이 이루어집니다. 그러나 표본평균은 모평균을 대신하는 과정에서 불확실성이 존재합니다. 그 불확실성은 표본들로부터 산출되는 통계량인 표본평균들과 모평균 사이의 오차로서 나타낼 수 있습니다. 그 통계량을 표준오차(standard error)라고 합니다.
표준편차 | 자료의 퍼짐정도를 나타내는 통계량 |
---|---|
표준오차 | 표본평균과 모평균의 퍼짐 정도를 나타내는 추정량 |
다음 객체 x는 pnadas모듈의 DataFrame 객체로서 같은 모듈의 std()
메소드를 사용하여 표준편차와 표준오차를 계산할 수 있습니다.
import numpy as np import pandas as pd from scipy import stats from sympy import * import matplotlib.pyplot as plt
x=pd.DataFrame([2., 3., 9., 6., 7., 8.]) xBar=x.mean() sd=x.std() se=x.sem() pd.DataFrame([xBar, sd, se], index=['X_Bar','s', 'SE'])
0 | |
---|---|
X_Bar | 5.833333 |
s | 2.786874 |
SE | 1.137737 |
se2=sd/np.sqrt(len(x)) #식 2 적용 se2
0 | 1.137737 |
dtype: float64 |
위 객체 se는 pandas 모듈의 sem()
메소드에 의해 계산한 것으로 다른 객체 se2와 같은 결과를 보입니다. se2의 경우는 표준편차를 표본수로 나누어 준 것입니다. 그러므로 이 계산과정을 일반화하면 표준오차는 다음과 같이 계산됩니다.
위 식은 모든 표본들을 구성하는 값들은 독립이고 모집단과 동일한 분포의 통계량을 가진다는 가정하에 성립합니다. 모 표준편차를 모르는 경우 표본 분포의 표준편차를 사용하여 계산할 수 있습니다. 즉, 표준오차는 식 2와 같이 계산됩니다.
$$\begin{equation}\tag{2}\text{se}(\overline{X})=\begin{cases}\frac{\sigma}{\sqrt{n}}& \sigma:\text{known}\\ \frac{s}{\sqrt{n}}& \sigma:\text{unknown}\end{cases} \end{equation}$$이 통계량들에 의해 표본으로부터 모집단을 추론할 수 있습니다.
표본분포는 다음과 같은 특성을 가집니다.
- 모집단의 분포에 관계없이 표본평균의 분포는 정규분포에 근사하게 됩니다. 이와 같은 성질은 중심극한 정리로 설명됩니다.
- 표본분포의 평균(표본평균)은 모평균에 근사합니다.
- 표본분포의 표준편차는 모집단 표준편차의 불편추정치(unbiased estimator)로 사용됩니다.
- 모평균과 표본평균의 편차의 정도는 표준오차(standard error of the mean, se)로 나타낼 수 있으며 모집단 또는 표본분포의 표준편차와 샘플수에 의해 계산됩니다.
이 모집단과 표본평균들의 분포는 표 5.3과 같이 정리할 수 있습니다.
분포 | 설명 |
---|---|
모분포 | 모집단의 분포 일반적으로 모집단에 대한 정보는 부족 |
표본분포 | 많은 표본평균들의 분포 모집단이 알려진 경우 반복적인 표집에 의해 구성 모집단을 모르는 경우 표본에 대해 반복적인 표집으로 구성할 수 있음 이 정보는 항상 알 수 있음 |
댓글
댓글 쓰기