기본 콘텐츠로 건너뛰기

라벨이 비교인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 두 대규모 표본의 비교

두 대규모 표본의 비교 내용 두 독립집단의 비교 등분산인 두 소규모 표본의 비교 이분산인 두 소규모 표본의 비교 두 대규모 표본의 비교 중심극한정리 에 의하면 큰 규모의 표본은 정규분포에 부합합니다. 일반적으로 자료의 갯수가 30개 이상이면 정규분포를 따른다고 가정합니다. 이 경우는 모분산이 동일하다는 가정은 필요하지 않으며 두 표본으로부터 평균의 차 역시 정규분포를 가정할 수 있습니다. 그러므로 큰 규모의 표본들의 X-Y의 결합분포의 평균과 분산은 식 1과 같이 계산됩니다. \begin{align}μ_{\text{pred}}&= μ_x − μ_y\\ \sigma_{\text{pred}}^2 & = \frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}\quad \text{for:}\; \sigma^2\to \text{known}\\\sigma_{\text{pred}}^2 & = \frac{s_x^2}{n_x}+\frac{s_y^2}{n_y}\quad \text{for:}\; \sigma^2\to \text{unknown}\\ &\mu,\, n:\,\text{평균, 샘플의 크기}\\& \sigma,\, s:\, \text{모표준편차, 표본표준편차} \end{align} (식 1) 예 1) 다음은 일정기간 코스피(kos)지수와 다우(dj)지수의 일일 시가 기준 종가의 변화율에 대한 자료입니다. kospi dow 0 -1.079 NaN 1 -0.551 -0.038 2 2.267 0.315 3 -0.157 -0.788 ⋮ ⋮ ⋮ ...

[data analysis]등분산인 두 소규모 표본의 비교

등분산인 두 소규모 표본의 비교 내용 두 독립집단의 비교 등분산인 두 소규모 표본의 비교 이분산인 두 소규모 표본의 비교 두 대규모 표본의 비교 일반적으로 자료의 규모가 30이하일 경우 정규분포 대신 t분포를 사용합니다. 또한 동일 모집단이나 유사한 모집단에서 추출된 표본으로 동일한 분산이라고 가정할 수 있다면 결합분포는 식 1와 같이 나타낼 수 있습니다. \begin{align} \bar{x}-\bar{y}&\;\sim\;\left(\mu_x-\mu_y,\; \sigma^2\left(\frac{1}{n_x}+\frac{1}{n_y} \right) \right)\\&n: \text{샘플의 크기}, \; \mu: \text{평균},\;\sigma: \text{표준편차}\end{align} (식 1) 표준정규분포를 기반으로 하는 분석 즉, z-검정을 위해서는 식 2를 적용해 각 표본의 평균에 대한 z 통계량 계산합니다. $$Z=\frac{x-\mu}{\sigma}$$ (식 2) 그러나 현실적으로 모표준편차 (σ)는 알 수 없는 경우가 많습니다. 이러한 경우 불편추정치로 표본분산(s 2 )를 사용합니다. 자료의 규모가 작은 경우 위 z 통계량은 자유도를 모수로 하는 t 분포를 따르며 그 분포의 검정 통계량인 t 통계량은 식 3과 같이 계산됩니다. \begin{align}t& =\frac{\bar{x}-\mu}{\frac{s}{n}}\;\sim\;t(\text(자유도))\\ \bar{x}&=\frac{\bar{x_1}+\bar{x_2}+\cdots +\bar{x_n}}{n}\\s^2&=\frac{\sum^n_{i=1}(x_i\bar{x})^2}{n-1}\end{align} (식 3) 동일한 분산을 가진다고 가정할 수 있는 경우 두 집단의 결합분포 표준편차로 합동표준편차(pooled standard deviation) 를 사용합니다. 식 4와 같이 정의되는 합동표준편차...

[data analysis]두 독립집단의 비교

두 독립집단의 비교 내용 두 표본의 비교 등분산인 두 소규모 표본의 비교 이분산인 두 소규모 표본의 비교 두 대규모 표본의 비교 식 1과 같이 정규분포를 따르는 두 개의 독립 확률변수 X, Y의 평균을 비교하기 하기 위해 가설검정을 적용합니다. \begin{align}\bar{x}&=\frac{\sum^n_{i=1} x_i}{n_X} \sim N\left(\mu_x, \frac{\text{s}_x}{n_x}\right)\\ \bar{y}&=\frac{\sum^n_{i=1} y_i}{n_Y} \sim N\left(\mu_y, \frac{\text{s}_y}{n_y}\right)\\& n: \text{샘플의 크기}, \; s: \text{표본의 표준편차}\end{align} (식 1) 이 분석의 귀무가설은 식 2와 같습니다. H0 : μ X - μ Y = 0 (식 2) 귀무가설의 검정통계량은 두 집단이 결합한 분포로부터 계산됩니다. 즉, X, Y의 결합 확률분포의 평균과 표준편차는 식 3과 같이 계산됩니다. \begin{align}E(X-Y)&=E(X)-E(Y)\\&=\mu_x-\mu_y\\\text{Var}(X-Y)&=\text{Var}(X)+\text{Var}(Y)-\text{Cov}(X,Y)\\ &=\frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}\\&\text{Cov}(X,Y)=0\quad \because\;X,\,Y:\text{독립}\\& n: \text{샘플의 크기}, \; \mu: \text{평균},\;\sigma: \text{표준편차}\end{align} (식 3) 식 3에서 Cov는 공분산(covariance) 을 의미합니다. 즉, X, Y 두 집단 사이에 교호작용의 효과를 고려하는 것으로 두 집단이 독립이라는 가정에 의해 0이 됩니다. 이 가정에 부합하는 두 집단의 결합확률분포는 식 4와 같이...