sons dataStory

글

라벨이 interval인 게시물 표시

[data analysis] 두 대규모 표본의 비교

두 대규모 표본의 비교 내용 두 독립집단의 비교 등분산인 두 소규모 표본의 비교 이분산인 두 소규모 표본의 비교 두 대규모 표본의 비교 중심극한정리 에 의하면 큰 규모의 표본은 정규분포에 부합합니다. 일반적으로 자료의 갯수가 30개 이상이면 정규분포를 따른다고 가정합니다. 이 경우는 모분산이 동일하다는 가정은 필요하지 않으며 두 표본으로부터 평균의 차 역시 정규분포를 가정할 수 있습니다. 그러므로 큰 규모의 표본들의 X-Y의 결합분포의 평균과 분산은 식 1과 같이 계산됩니다. \begin{align}μ_{\text{pred}}&= μ_x − μ_y\\ \sigma_{\text{pred}}^2 & = \frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}\quad \text{for:}\; \sigma^2\to \text{known}\\\sigma_{\text{pred}}^2 & = \frac{s_x^2}{n_x}+\frac{s_y^2}{n_y}\quad \text{for:}\; \sigma^2\to \text{unknown}\\ &\mu,\, n:\,\text{평균, 샘플의 크기}\\& \sigma,\, s:\, \text{모표준편차, 표본표준편차} \end{align} (식 1) 예 1) 다음은 일정기간 코스피(kos)지수와 다우(dj)지수의 일일 시가 기준 종가의 변화율에 대한 자료입니다. kospi dow 0 -1.079 NaN 1 -0.551 -0.038 2 2.267 0.315 3 -0.157 -0.788 ⋮ ⋮ ⋮ ...

[data analysis] 신뢰구간(Confidence Interval)

신뢰구간(Confidence Interval) 표본평균($\bar{x}$)은 모평균(μ)을 위한 적합한 추정량이 될 수 있지만 불확실성이 존재합니다. 그 불확실성을 감소시키 위해 그 추정량을 기준으로 모평균의 존재 가능성이 높은 구간을 설정할 수 있습니다. 예를 들어 중심극한 정리에 의해 자료의 수가 크다면 정규분포를 가정할 수 있습니다. 즉, 표본수가 큰 표본분포의 경우 정규분포로 가정할 수 있으며 최대 확률을 보이는 평균을 중심으로 양쪽 또는 한쪽 방향으로 추정값이 존재할 수 있는 구간(신뢰구간)을 지정할 수 있습니다. 추정량이 모평균을 추정하는 신뢰구간 내에 존재한다면 모평균으로 사용할 수 있는 근거가 마련된 것입니다. 그러나 그 구간(interval) 외에 위치한다면 모평균으로 사용하는 것이 어렵다고 할 수 있습니다. 즉, 분포의 가정과 신뢰구간은 추정량의 채택 또는 기각에 대한 판정기준으로 사용됩니다. 신뢰구간은 발생할 수 있는 모든 값들 중에 추정치로 사용할 수 있는 값들이 포함되는 범위를 의미합니다. 이 범위는 분포상에서 점유하고 있는 누적확률로 나타낼 수 있습니다. 그림 1은 표준정규분포에서 평균을 중심으로 95%의 확률이 점유하는 면적으로 나타낸 것입니다. 이 경우 랜덤변수의 구간은 (-1.96, 1.96)이 됩니다. 즉, 이 구간내에 존재하는 값은 합리적인 추정치로 고려할 수 있음을 의미합니다. 물론 그 신뢰구간의 범위는 설정하는 누적확률에 따라 달라질 것입니다. 그림 1. N(0, 1)에서 확률 95%에 대응하는 신뢰구간. import numpy as np from scipy import stats import matplotlib.pyplot as plt x=np.linspace(-3, 3, 1000) plt.figure(figsize=(4,3)) plt.plot(x, stats.norm.pdf(x), color="g", label="N(0,1)") x1=np.linspace(-1.96,...

[data analysis] 추정(Estimation)

추정(Estimation) 추정에서는 모수의 특정값을 추정하는 점추정(point estimation) 과 모수가 포함될 일정한 구간을 추정하는 구간추정(interval estimation) 으로 구분됩니다. 표본으로부터 모집단의 모수들을 추정하기 위해 사용하는 통계량을 추정량(estimator) 라고하며 가정에 부합하며 어떠한 편의(bias)를 가지지 않는 추정치를 불편추정치(unbiased estimator) 로 사용합니다. 예를 들어 모평균을 추정하기 위해 표본평균을 불편추정치로 사용합니다. 각 표본의 평균들로부터 산출된 평균(표본평균)은 식 1과 같이 계산되며 모평균의 추정량이됩니다. \begin{align}\tag{1} \hat{\mu}&=\bar{x}\\ &=\frac{1}{n}(\bar{x_1}+\bar{x_2}+\cdots+\bar{x_n})\\ &=\frac{1}{n}\sum^n_{i=1}\bar{x_i } \end{align} (식 1) 또한 일반적으로 모표준편차 σ는 미지의 값이므로 표본분포의 표준편차 s를 불편추정량으로 사용하여 식 2와 같이 계산됩니다. \begin{align}\tag{2}&\begin{aligned}\hat{\sigma}&=s\\ &=\sqrt{\frac{1}{n-1}\sum^n_{i=1}(\bar{x_i}-\bar{x})} \end{aligned}\\ & n :\text{샘플 수} \end{align} (식 2) 표본의 통계량에 의해 추정된 모수는 모집단으로부터 표집되는 표본에 의존합니다. 기본적으로 모집단과 표본에는 차이가 존재하므로 추정된 모수는 불확실성을 내재합니다. 그러므로 점 추정치와 같이 하나의 값으로 모수를 나타내는 것보다 확률적으로 신뢰할 수 있는 수준에서 모수가 포함되는 구간을 설정하여 나타내는 것이 보다 합리적일 것입니다. 이러한 구간을 신뢰구간(confidence Interval) 이라 하며 그 구간에 대한 추정을...

Estimation

Contents Point estimation Interval estimation Confidence Interval Estimation Estimation is divided into point estimation , which estimates a specific value of a parameter, and interval estimation , which estimates a certain interval in which the parameter is included. Point estimation A statistic used to estimate the parameters of a population from a sample is called an estimator, and an estimate that meets some assumptions and has no bias is used as an unbiased estimator . For example, to estimate the population mean, the sample mean is used as an unbiased estimate. The sample mean of n samples X 1 , X 2 , …, X n is calculated as in Equation 1 and is an estimator of the population mean. $$\begin{align}\tag{1} \hat{\mu}&=\bar{X}\\ &=\frac{1}{n}(\bar{X_1}+\bar{X_2}+\cdots+\bar{X_n})\\ &=\frac{1}{n}\sum^n_{i=1}\bar{X_i } \end{align}$$ Also, in general, the population variance σ 2 is an unknown value, so it is calculated as in Equation 2 using the standard...

sons dataStory

이 블로그 검색

글

[matplotlib]quiver()함수

[data analysis] 두 대규모 표본의 비교

[data analysis] 신뢰구간(Confidence Interval)

[data analysis] 추정(Estimation)

Estimation