sons dataStory

글

라벨이 norm인 게시물 표시

[data analysis] 정규분포(Normal Distribution)

정규분포(Normal (Gaussian) Distribution) 여러 현상들에 대해 큰 규모의 자료를 조사하면 그림 1과 같이 평균에서 가장 높은 확률을 보이며 그 평균을 중심으로 양쪽으로 같은 정도로 확률 감소를 보이는 종 모양의 형태를 보입니다. 이러한 분포를 정규분포(normal Distribution) 라고 합니다. 특히 큰 규모의 확률변수들에 대한 분포는 그 변수들의 조건에 상관없이 정규분포에 근접하기 때문에 데이터들의 여러 특성들을 연구하는데 중심이 되는 분포입니다. 그림 1. 정규분포에서 확률과 표준편차의 관계. x=np.linspace(-4, 4, 100) p=stats.norm.pdf(x) nme=[r"-2.56$\sigma$", r"-1.96$\sigma$", r"$\sigma$", r'$\mu$', r"$\sigma$", r"1.96$\sigma$", r"2.56$\sigma$"] x1=np.linspace(-1, 1, 100) x21=np.linspace(-1.96, -1, 100) x22=np.linspace(1, 1.96, 100) x31=np.linspace(-2.56, -1.96, 100 ) x32=np.linspace(1.96, 2.56, 100) fig, ax=plt.subplots(figsize=(9,3)) ax.plot(x, p, color="r") ax.fill_between(x1, stats.norm.pdf(x1), color="g", alpha=0.3, label="68%") ax.fill_between(x21, stats.norm.pdf(x21), color="b", alpha=0.3, label="95%") ax.fill_between(x22, stats.norm.pdf(x22), color...

[data analysis] 두 대규모 표본의 비교

두 대규모 표본의 비교 내용 두 독립집단의 비교 등분산인 두 소규모 표본의 비교 이분산인 두 소규모 표본의 비교 두 대규모 표본의 비교 중심극한정리 에 의하면 큰 규모의 표본은 정규분포에 부합합니다. 일반적으로 자료의 갯수가 30개 이상이면 정규분포를 따른다고 가정합니다. 이 경우는 모분산이 동일하다는 가정은 필요하지 않으며 두 표본으로부터 평균의 차 역시 정규분포를 가정할 수 있습니다. 그러므로 큰 규모의 표본들의 X-Y의 결합분포의 평균과 분산은 식 1과 같이 계산됩니다. \begin{align}μ_{\text{pred}}&= μ_x − μ_y\\ \sigma_{\text{pred}}^2 & = \frac{\sigma_x^2}{n_x}+\frac{\sigma_y^2}{n_y}\quad \text{for:}\; \sigma^2\to \text{known}\\\sigma_{\text{pred}}^2 & = \frac{s_x^2}{n_x}+\frac{s_y^2}{n_y}\quad \text{for:}\; \sigma^2\to \text{unknown}\\ &\mu,\, n:\,\text{평균, 샘플의 크기}\\& \sigma,\, s:\, \text{모표준편차, 표본표준편차} \end{align} (식 1) 예 1) 다음은 일정기간 코스피(kos)지수와 다우(dj)지수의 일일 시가 기준 종가의 변화율에 대한 자료입니다. kospi dow 0 -1.079 NaN 1 -0.551 -0.038 2 2.267 0.315 3 -0.157 -0.788 ⋮ ⋮ ⋮ ...

[Linear Algebra] 단위벡터(unit vector)

단위벡터 단위벡터(unit vector) 는 노름(norm) 이 1인 벡터로서 식 1과 같이 계산할 수 있습니다. \begin{align}a&=\begin{bmatrix}a_1& a_2 \end{bmatrix}\\\text{a의 단위벡터}&= \begin{bmatrix} \frac{a_1}{\Vert{a}\Vert}& \frac{a_2}{\Vert{a}\Vert}\end{bmatrix} \end{align} (식 1) import numpy as np import numpy.linalg as la a=np.array([2,7]) a_norm=la.norm(a) a_unit=a/a_norm print(a_unit) [0.27 0.96] la.norm(a_unit) 1.0 예 1) 벡터의 u와 같은 방향의 단위벡터? u = [-4, -5, -4] u=np.array([-4, -5, -4]) u_norm=la.norm(u) round(u_norm, 3) 7.55 u_unit=u/u_norm print(u_unit) [-0.53 -0.66 -0.53]

[Linear Algebra] 노름(Norm)

노름(Norm) 벡터 노름 (Vector Norm) 행렬 노름(Matrix Norm) 벡터 노름 (Vector Norm) 식 1의 벡터 x는 원점에서 n개의 좌표로 지정된 지점($x_1, x_2, \cdots, x_n$)까지 같이 벡터들 사이에서 계산된 거리(D)를 계산한 것으로 norm(노름) 또는 유클리드 거리(Euclidean distance) 라 하고 $\Vert{x}\Vert$로 나타냅니다. \begin{align}x&=\begin{bmatrix}x_1\\x_2\\\vdots\\v_n \end{bmatrix}\\ \text{D}&=\sqrt{(x_1-0)^2+(x_2-0)^2+\cdots+(x_n-0)^2}\\ &=\sqrt{x^Tx} = \Vert {x} \Vert\\ \Leftarrow x^Tx&=\begin{bmatrix}x_1& x_2& \vdots& v_n \end{bmatrix}\begin{bmatrix}x_1\\x_2\\\vdots\\v_n \end{bmatrix}\\&= x_1^2+x_2^2+\cdots+x_n^2\end{align} (식 1) 식 1의 x T x는 벡터 x의 전치벡터와의 곱으로 벡터의 내적(inner product) 입니다. 유클리드 놈은 때때로 $\Vert{x}\Vert_2$와 같이 아래첨자 2로 작성됩니다. 아래 첨자 2는 x의 요소들의 제곱의 합임을 의미합니다. 벡터의 유클리드 놈은 벡터의 크기(magnitude)를 의미하며 numpy.linalg 모듈의 norm() 함수로 계산할 수 있습니다. import numpy as np import numpy.linalg as la x=np.array([2,-1,2]) x_norm=np.sqrt(sum(x**2));x_norm 3.0 la.norm(x) 3.0 유클리드 놈은 크기입니다. 이것은 스칼라의 크기 역시 식 1의 식으로 계...

sons dataStory

이 블로그 검색

글

[matplotlib]quiver()함수

[data analysis] 정규분포(Normal Distribution)

[data analysis] 두 대규모 표본의 비교

[Linear Algebra] 단위벡터(unit vector)

[Linear Algebra] 노름(Norm)