sons dataStory

글

라벨이 소규모 표본인 게시물 표시

[data analysis]등분산인 두 소규모 표본의 비교

등분산인 두 소규모 표본의 비교 내용 두 독립집단의 비교 등분산인 두 소규모 표본의 비교 이분산인 두 소규모 표본의 비교 두 대규모 표본의 비교 일반적으로 자료의 규모가 30이하일 경우 정규분포 대신 t분포를 사용합니다. 또한 동일 모집단이나 유사한 모집단에서 추출된 표본으로 동일한 분산이라고 가정할 수 있다면 결합분포는 식 1와 같이 나타낼 수 있습니다. \begin{align} \bar{x}-\bar{y}&\;\sim\;\left(\mu_x-\mu_y,\; \sigma^2\left(\frac{1}{n_x}+\frac{1}{n_y} \right) \right)\\&n: \text{샘플의 크기}, \; \mu: \text{평균},\;\sigma: \text{표준편차}\end{align} (식 1) 표준정규분포를 기반으로 하는 분석 즉, z-검정을 위해서는 식 2를 적용해 각 표본의 평균에 대한 z 통계량 계산합니다. $$Z=\frac{x-\mu}{\sigma}$$ (식 2) 그러나 현실적으로 모표준편차 (σ)는 알 수 없는 경우가 많습니다. 이러한 경우 불편추정치로 표본분산(s 2 )를 사용합니다. 자료의 규모가 작은 경우 위 z 통계량은 자유도를 모수로 하는 t 분포를 따르며 그 분포의 검정 통계량인 t 통계량은 식 3과 같이 계산됩니다. \begin{align}t& =\frac{\bar{x}-\mu}{\frac{s}{n}}\;\sim\;t(\text(자유도))\\ \bar{x}&=\frac{\bar{x_1}+\bar{x_2}+\cdots +\bar{x_n}}{n}\\s^2&=\frac{\sum^n_{i=1}(x_i\bar{x})^2}{n-1}\end{align} (식 3) 동일한 분산을 가진다고 가정할 수 있는 경우 두 집단의 결합분포 표준편차로 합동표준편차(pooled standard deviation) 를 사용합니다. 식 4와 같이 정의되는 합동표준편차...

sons dataStory

이 블로그 검색

글

[matplotlib]quiver()함수

[data analysis]등분산인 두 소규모 표본의 비교