표준편차와 표준오차(standard deviation & standard error) 자료의 특성을 나타내는 기본적인 통계량은 평균과 분산이 있습니다. 평균은 자료의 중심을 나타내고 퍼짐 정도는 분산으로 표시합니다. 분산의 제곱근이 표준편차이므로 이 통계량의 단위는 자료와 같기 때문에 분산보다는 표준편차를 더 유용하게 사용합니다. 표 1에서 소개한 것과 같이 모집단과 표본에서의 표기방법은 차이가 있습니다. 표 1 모집단과 표본에서의 평균, 분산, 그리고 표준편차 N: population size, n: sample size Item Population Sample Mean $\mu=\frac{\sum^N_{i=1} x_i}{N}$ $\bar{x}=\frac{\sum^n_{i=1} x_i}{n-1}$ Variance $\sigma^2=\frac{\sum^N_{i=1} (x_i-\mu)^2}{N}$ $s^2=\frac{\sum^n_{i=1} (x_i-\bar{x})^2}{n-1}$ Standard Deviation σ s 표준편차는 자료의 퍼짐성을 나타내는 자료로서 모집단의 표준편차(σ)를 알 수 없는 경우 식 1과 같이 계산된 표본표준편차(s)를 사용합니다. \begin{align}\text{s}&=\sqrt{\frac{\sum^n_{i=1}(x_i - \overline{x})^2}{n-1}}\\ &\text{s}: \text{표본표준편차}\\&n: \text{표본수}\end{align} (식 1) 식 1의 분모는 자유도(degree of freedom ) 입니다. 이 식은 표본의 평균을 사용하므로 표본의 요소 1개는 고정된 것으로 고려할 수 있습니다. 그러므로 확률변수(랜덤수)로 고려되는 갯수는 표본 전체에서 1을 제외한 수가 됩니다. 즉, 자유도는 1만큼 감소됩니다. 표준편차는 평균을 기준으로 각 자료의 퍼짐의 정도를 나타내는 것으로서 표본 수가 아니라 표본의 자유도를 고려해야 합니다. ...
python 언어를 적용하여 통계(statistics)와 미적분(Calculus), 선형대수학(Linear Algebra)을 소개합니다. 이 과정에서 빅데이터를 다루기 위해 pytorch를 적용합니다.