확률과 주요통계량: 분산 관련 내용 확률과 주요통계량: 모멘트와 기대값 분산 (Variance) 분산 (Variance) 분산(variance) 은 데이터 변동성 을 나타내는 것으로 식 1과 같이 계산되며 분산의 제곱근이 표준편차(standard deviation, $\sigma$) 가 됩니다. \begin{align}\sigma^2&=E(X-\mu)^2\\&=(x_1-\mu)^2P(X=x_1)+ \cdots+(x_k-\mu)^2P(X=x_k)\\&=\sum^k_{i=1} (x_k-\mu)^2P(X=x_k)\end{align} (식 1) 자료 분포에 대한 퍼짐의 척도인 분산은 각 데이터와 평균사이의 편차 제곱에 대한 가중 평균입니다. 식 1은 식 2와 같이 간략하게 정리됩니다. \begin{align}\sigma^2&=\sum^k_{i=1} (x_i-\mu)^2P(X=x_i)\\&=\sum^k_{i=1}(x_i^2-2x_i\mu+\mu^2)f(x_i)\\&=\sum^k_{i=1} x_i^2f(x_i) -2\mu \sum^k_{i=1} x_if(x_i)+ \mu^2\\&=\sum^k_{i=1} x_i^2f(x_i)-2\mu^2+\mu^2\\&=\sum^k_{i=1} x_i^2f(x_i)-\mu^2\\&=E(X^2)-(E(X))^2\\ \because& \sum^k_{i=1} x_if(x_i)=\mu, \quad \sum^k_{i=1} f(x_i)=1 \end{align} (식 2) 분산은 확률변수의 분포를 나타내는 지표이며 식 2에서 나타낸 것과 같이 2차 모멘트와 1차 모멘트의 차로 계산됩니다. 즉, 분산은 기대값으로부터 파생되므로 분산 역시 기대값의 특성인 선형결합이 가능합니다. 그러나 식 3과 같이 분산의 선형결합은 기대값의 그것과는 다른 형태를 보입니다. \begin{align}\text{var}(ax+b)&=\sigma_...
python 언어를 적용하여 통계(statistics)와 미적분(Calculus), 선형대수학(Linear Algebra)을 소개합니다. 이 과정에서 빅데이터를 다루기 위해 pytorch를 적용합니다.