[data analysis]두 독립집단의 비교

두 독립집단의 비교

내용

식 1과 같이 정규분포를 따르는 두 개의 독립 확률변수 X, Y의 평균을 비교하기 하기 위해 가설검정을 적용합니다.

\begin{align}\bar{x}&=\frac{\sum^n_{i=1} x_i}{n_X} \sim N\left(\mu_x, \frac{\text{s}_x}{n_x}\right)\\ \bar{y}&=\frac{\sum^n_{i=1} y_i}{n_Y} \sim N\left(\mu_y, \frac{\text{s}_y}{n_y}\right)\\& n: \text{샘플의 크기}, \; s: \text{표본의 표준편차}\end{align}

(식 1)

이 분석의 귀무가설은 식 2와 같습니다.

H0 : μ_X - μ_Y = 0

(식 2)

귀무가설의 검정통계량은 두 집단이 결합한 분포로부터 계산됩니다. 즉, X, Y의 결합 확률분포의 평균과 표준편차는 식 3과 같이 계산됩니다.

\begin{align}E(X-Y)&=E(X)-E(Y)\\&=\mu_x-\mu_y\\\text{Var}(X-Y)&=\text{Var}(X)+\text{Var}(Y)-\text{Cov}(X,Y)\\ &=\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}\\&\text{Cov}(X,Y)=0\quad \because\;X,\,Y:\text{독립}\\& n: \text{샘플의 크기}, \; \mu: \text{평균},\;\sigma: \text{표준편차}\end{align}

(식 3)

식 3에서 Cov는 공분산(covariance)을 의미합니다. 즉, X, Y 두 집단 사이에 교호작용의 효과를 고려하는 것으로 두 집단이 독립이라는 가정에 의해 0이 됩니다. 이 가정에 부합하는 두 집단의 결합확률분포는 식 4와 같이 나타냅니다.

공분산: E(X-μ_x)(Y-μ_y)

$$N\left(\mu_x-\mu_y, \; \frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}\right)$$

(식 4)

이 분포를 근거로 식 4에 의해 계산된 검정통계량을 지정한 신뢰수준에서 검정합니다. 분석에 적용되는 확률분포는 표본의 규모에 따라 표 1과 같이 구분합니다. 일반적으로 정규분포를 사용하지만 표본의 규모가 작을 경우는 t 분포를 적용합니다.

표 1 두 표본의 비교를 위한 분석방법
표본의 규모	가정	결합확률분포
소규모	등분산(homoskedasticity)	t분포, 합동표준편차 사용
소규모	이분산(heteroskedasticity)	t분포, 각 표준편차 사용, 자유도 별도 계산
대규모	-	정규분포사용

표 1에서 나타낸 것과 같이 두 집단의 비교는 자료의 규모, 등분산성 여부에 따라 다양한 분석방법이 적용됩니다. 이 분석들은 numpy, pandas, scipy 등의 패키지에서 제공하는 함수나 클래스 등으로 시행할 수 있습니다. 특히 대표적인 통계패키지인 statsmodels의 CompareMeans와 DescrStatsW 클래스의 다양한 속성과 메서드들을 사용하여 다양한 분석의 결과를 확인할 수 있습니다.

sons dataStory

이 블로그 검색

pandas_ta를 적용한 통계적 인덱스 지표

[data analysis]두 독립집단의 비교

두 독립집단의 비교

내용

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

유리함수 그래프와 점근선 그리기

[sympy] Sympy객체의 표현을 위한 함수들