두 독립집단의 비교
내용
식 1과 같이 정규분포를 따르는 두 개의 독립 확률변수 X, Y의 평균을 비교하기 하기 위해 가설검정을 적용합니다.
\begin{align}\bar{x}&=\frac{\sum^n_{i=1} x_i}{n_X} \sim N\left(\mu_x, \frac{\text{s}_x}{n_x}\right)\\ \bar{y}&=\frac{\sum^n_{i=1} y_i}{n_Y} \sim N\left(\mu_y, \frac{\text{s}_y}{n_y}\right)\\& n: \text{샘플의 크기}, \; s: \text{표본의 표준편차}\end{align} | (식 1) |
이 분석의 귀무가설은 식 2와 같습니다.
H0 : μX - μY = 0 | (식 2) |
귀무가설의 검정통계량은 두 집단이 결합한 분포로부터 계산됩니다. 즉, X, Y의 결합 확률분포의 평균과 표준편차는 식 3과 같이 계산됩니다.
\begin{align}E(X-Y)&=E(X)-E(Y)\\&=\mu_x-\mu_y\\\text{Var}(X-Y)&=\text{Var}(X)+\text{Var}(Y)-\text{Cov}(X,Y)\\ &=\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}\\&\text{Cov}(X,Y)=0\quad \because\;X,\,Y:\text{독립}\\& n: \text{샘플의 크기}, \; \mu: \text{평균},\;\sigma: \text{표준편차}\end{align} | (식 3) |
식 3에서 Cov는 공분산(covariance)을 의미합니다. 즉, X, Y 두 집단 사이에 교호작용의 효과를 고려하는 것으로 두 집단이 독립이라는 가정에 의해 0이 됩니다. 이 가정에 부합하는 두 집단의 결합확률분포는 식 4와 같이 나타냅니다.
공분산: E(X-μx)(Y-μy)
$$N\left(\mu_x-\mu_y, \; \frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}\right)$$ | (식 4) |
이 분포를 근거로 식 4에 의해 계산된 검정통계량을 지정한 신뢰수준에서 검정합니다. 분석에 적용되는 확률분포는 표본의 규모에 따라 표 1과 같이 구분합니다. 일반적으로 정규분포를 사용하지만 표본의 규모가 작을 경우는 t 분포를 적용합니다.
표본의 규모 | 가정 | 결합확률분포 |
---|---|---|
소규모 | 등분산(homoskedasticity) | t분포, 합동표준편차 사용 |
이분산(heteroskedasticity) | t분포, 각 표준편차 사용, 자유도 별도 계산 | |
대규모 | - | 정규분포사용 |
표 1에서 나타낸 것과 같이 두 집단의 비교는 자료의 규모, 등분산성 여부에 따라 다양한 분석방법이 적용됩니다. 이 분석들은 numpy, pandas, scipy 등의 패키지에서 제공하는 함수나 클래스 등으로 시행할 수 있습니다. 특히 대표적인 통계패키지인 statsmodels의 CompareMeans와 DescrStatsW 클래스의 다양한 속성과 메서드들을 사용하여 다양한 분석의 결과를 확인할 수 있습니다.
댓글
댓글 쓰기