기본 콘텐츠로 건너뛰기

라벨이 ttest_ind인 게시물 표시

[matplotlib]quiver()함수

[data analysis]이분산인 두 소규모 표본의 비교

이분산인 두 소규모 표본의 비교 내용 두 독립집단의 비교 소규모 표본에서 등분산 이분산인 두 소규모 표본의 비교 두 대규모 표본의 비교 소규모 표본의 경우 다음 2가지 가정하에 t분포를 기준으로 가설검정을 실시합니다. 가정 1: 각 모집단이 정규분포를 따름 가정 2: 두 모분산이 동일 가정 1의 경우 모집단이 크다면 중심극한 정리에 의해 정규분포를 가정하는 것은 합리적입니다. 정규분포는 표준화에 의해 각 모집단의 분포의 분산은 같아집니다. 그러나 정규분포의 가정이 불확실할 경우 가정 2역시 불확실성을 가집니다. 이러한 경우는 각 표본의 분산 정도에 따라 판단합니다. 두 표본 표준편차의 비가 0.5와 2사이에 존재한다면 등분산으로 가정할 수 있습니다(식 1). $$0.5 ≤ \frac{s_1}{s_2} \le 2$$ (식 1) 위 식의 조건에 부합하지 않은 경우 또는 다른 이유로 등분산 가정이 적용되기 어려운 경우 등분산을 가정한 합동분산은 적용할 수 없습니다. 대신에 식 1과 같이 계산되는 결합확률분포의 합동분산을 적용합니다. \begin{align}E(X-Y)&=E(X)-E(Y)\\&=\mu_x-\mu_y\\\text{Var}(X-Y)&=\text{Var}(X)+\text{Var}(Y)-\text{Cov}(X,Y)\\ &=\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}\\&\text{Cov}(X,Y)=0\quad \because\;X,\,Y:\text{독립}\\& n: \text{샘플의 크기}, \; \mu: \text{평균},\;\sigma: \text{표준편차}\end{align} (식 1) 이 결합분포의 표준편차는 각 그룹의 샘플 규모를 고려한 것으로 결합분포의 표준오차로 사용할 수 있습니다. 소규모 표본이므로 t 분포를 기준으로 분석을 시행하기 때문에 자유도 선택의 문제가 존재합니다. 합동분산인 경우 자유도는 n 1 ...

[data analysis]등분산인 두 소규모 표본의 비교

등분산인 두 소규모 표본의 비교 내용 두 독립집단의 비교 등분산인 두 소규모 표본의 비교 이분산인 두 소규모 표본의 비교 두 대규모 표본의 비교 일반적으로 자료의 규모가 30이하일 경우 정규분포 대신 t분포를 사용합니다. 또한 동일 모집단이나 유사한 모집단에서 추출된 표본으로 동일한 분산이라고 가정할 수 있다면 결합분포는 식 1와 같이 나타낼 수 있습니다. \begin{align} \bar{x}-\bar{y}&\;\sim\;\left(\mu_x-\mu_y,\; \sigma^2\left(\frac{1}{n_x}+\frac{1}{n_y} \right) \right)\\&n: \text{샘플의 크기}, \; \mu: \text{평균},\;\sigma: \text{표준편차}\end{align} (식 1) 표준정규분포를 기반으로 하는 분석 즉, z-검정을 위해서는 식 2를 적용해 각 표본의 평균에 대한 z 통계량 계산합니다. $$Z=\frac{x-\mu}{\sigma}$$ (식 2) 그러나 현실적으로 모표준편차 (σ)는 알 수 없는 경우가 많습니다. 이러한 경우 불편추정치로 표본분산(s 2 )를 사용합니다. 자료의 규모가 작은 경우 위 z 통계량은 자유도를 모수로 하는 t 분포를 따르며 그 분포의 검정 통계량인 t 통계량은 식 3과 같이 계산됩니다. \begin{align}t& =\frac{\bar{x}-\mu}{\frac{s}{n}}\;\sim\;t(\text(자유도))\\ \bar{x}&=\frac{\bar{x_1}+\bar{x_2}+\cdots +\bar{x_n}}{n}\\s^2&=\frac{\sum^n_{i=1}(x_i\bar{x})^2}{n-1}\end{align} (식 3) 동일한 분산을 가진다고 가정할 수 있는 경우 두 집단의 결합분포 표준편차로 합동표준편차(pooled standard deviation) 를 사용합니다. 식 4와 같이 정의되는 합동표준편차...