누적분포함수(CDF) 연속변수는 한 지점에서의 확률을 결정할 수 없습니다. 그러므로 이산변수와는 다르게 특정한 지점에서 확률계산은 적분을 적용합니다. 즉, 누적분포함수는 일정한 구간에 대한 확률밀도함수의 적분결과이며 이산변수의 경우 일정 구간의 확률질량함수 결과들의 합 입니다. 누적분포함수는 지정한 범위에서의 확률밀도함수들의 합으로 정의됩니다. 그러므로 연속변수의 경우 식 1과 같이 계산됩니다. 일반적으로 표준정규분포의 CDF의 F(x)를 Φ(x)로도 나타냅니다. \begin{align}F(x)&=\Phi(x)\\&=P(Z\le x)\\&=\frac{1}{\sqrt{2}}\int^x_{-\infty} \exp\left(-\frac{x^2}{2} \right)\, dx\end{align} (식 1) 누적분포함수는 식 2의 세가지 조건들을 모두 만족해야 합니다. a) lim F(x) = 1, lim F(x) = 0 (Eq. 3.2.22) x→∞ x→∞ b) F(0) = 0.5 c) F(-x) = 1 − F(x), x ∈ ℝ 표준정규분포와 정규분포는 단순히 데이터의 선형변환에 의한 것으로 본질적으로는 동일한 형태를 나타내므로 정규분포 변수 x를 z으로 변환하는 것으로 표준정규분포의 PDF와 CDF를 산출할 수 있습니다. 예 1) X ~ N(-10, 4)를 따르는 랜덤변수 x에 대해 다음의 확률들을 계산합시다. P(X < 0) P(-7 < X < 3) P(X > -3 | X > -5) 이 정규분포에 대한 표준 정규분포는 시각화하여 나타내면 그림 3.2.5와 같습니다. 그림 1. 정규분포(μ = -10, σ 2 = 4)와 표준정규분포. x=np.linspace(-25, 5, 1000) y1=stats.norm.pdf(x, -10, 4) y2=stats.norm.pdf(x) fig, ax=plt.subplots(figsize=(...
python 언어를 적용하여 통계(statistics)와 미적분(Calculus), 선형대수학(Linear Algebra)을 소개합니다. 이 과정에서 빅데이터를 다루기 위해 pytorch를 적용합니다.