sons dataStory

[data analysis] 정규분포(Normal Distribution)

정규분포(Normal (Gaussian) Distribution) 여러 현상들에 대해 큰 규모의 자료를 조사하면 그림 1과 같이 평균에서 가장 높은 확률을 보이며 그 평균을 중심으로 양쪽으로 같은 정도로 확률 감소를 보이는 종 모양의 형태를 보입니다. 이러한 분포를 정규분포(normal Distribution) 라고 합니다. 특히 큰 규모의 확률변수들에 대한 분포는 그 변수들의 조건에 상관없이 정규분포에 근접하기 때문에 데이터들의 여러 특성들을 연구하는데 중심이 되는 분포입니다. 그림 1. 정규분포에서 확률과 표준편차의 관계. x=np.linspace(-4, 4, 100) p=stats.norm.pdf(x) nme=[r"-2.56$\sigma$", r"-1.96$\sigma$", r"$\sigma$", r'$\mu$', r"$\sigma$", r"1.96$\sigma$", r"2.56$\sigma$"] x1=np.linspace(-1, 1, 100) x21=np.linspace(-1.96, -1, 100) x22=np.linspace(1, 1.96, 100) x31=np.linspace(-2.56, -1.96, 100 ) x32=np.linspace(1.96, 2.56, 100) fig, ax=plt.subplots(figsize=(9,3)) ax.plot(x, p, color="r") ax.fill_between(x1, stats.norm.pdf(x1), color="g", alpha=0.3, label="68%") ax.fill_between(x21, stats.norm.pdf(x21), color="b", alpha=0.3, label="95%") ax.fill_between(x22, stats.norm.pdf(x22), color...

[data anlysis]표본분포(Sample distribution)

표본분포(Sample distribution) 다음과 같이 모집단에서 추출한 표본들이 모든 요소(데이터)들을 사용하는 이상적인 경우 모평균과 표본평균들의 평균은 같습니다. 즉, 6개의 요소를 가지는 모집단으로부터 요소 3개를 포함하는 표본 2개에 대해 식 1의 관계가 성립합니다. \begin{align}X&=\{x_1, \,x_2, \,x_3, \,x_4, \,x_5, \,x_6\} \\ X_1&=\{x_1, \,x_2, \,x_3\},\; X_2=\{x_4, \,x_5, \,x_6\}\\ \mu&=\frac{x_1+x_2+x_3+x_4+x_5+x_6}{6}\\ \overline{X_1} &=\frac{x_1+x_2+x_3}{3}\\ \overline{X_2} &=\frac{x_4+x_5+x_6}{3}\\ \overline{X} &= \frac{\overline{X_1}+\overline{X_2}}{2}\\&=\frac{\frac{x_1+x_2+x_3}{3}+\frac{x_4+x_5+x_6}{3}}{2}\\ &=\mu\end{align} (식 1) 표본 집단들은 모집단으로부터 무작위로 추출된 것으로 표본들 사이에는 편차가 존재합니다. 그러나 모든 샘플들이 모집단의 요소들을 포함한다면 식 1과 같이 각 샘플의 평균으로 유도되는 평균은 모평균과 같아질 것입니다. 다시 말하면 각 샘플의 평균들은 일정한 분포를 이룰 수 있습니다. 중심극한 정리 에 의해 그 수가 많으며 정규분포에 부합합니다. 이러한 분포를 표본평균분포 또는 표본 분포(sample distribution) 라고 하고 이 분포의 평균을 표본평균(sample mean) 이라 합니다. 식 1과 중심극한 정리와 같은 모집단과 표본들의 관계로 인해 표본평균은 미지의 모평균을 대체하여 사용합니다. 이러한 추정치를 불편추정치(unbiased estimator) 라고 합니다. 즉, 모평균과 표본평균 사이에 발생하는 편차는 일반적인 ...

sons dataStory

이 블로그 검색

글

[matplotlib]quiver()함수

[data analysis] 정규분포(Normal Distribution)

[data anlysis]표본분포(Sample distribution)