기본 콘텐츠로 건너뛰기

라벨이 모멘트인 게시물 표시

[matplotlib]quiver()함수

확률과 주요통계량: 분산

확률과 주요통계량: 분산 관련 내용 확률과 주요통계량: 모멘트와 기대값 분산 (Variance) 분산 (Variance) 분산(variance) 은 데이터 변동성 을 나타내는 것으로 식 1과 같이 계산되며 분산의 제곱근이 표준편차(standard deviation, $\sigma$) 가 됩니다. \begin{align}\sigma^2&=E(X-\mu)^2\\&=(x_1-\mu)^2P(X=x_1)+ \cdots+(x_k-\mu)^2P(X=x_k)\\&=\sum^k_{i=1} (x_k-\mu)^2P(X=x_k)\end{align} (식 1) 자료 분포에 대한 퍼짐의 척도인 분산은 각 데이터와 평균사이의 편차 제곱에 대한 가중 평균입니다. 식 1은 식 2와 같이 간략하게 정리됩니다. \begin{align}\sigma^2&=\sum^k_{i=1} (x_i-\mu)^2P(X=x_i)\\&=\sum^k_{i=1}(x_i^2-2x_i\mu+\mu^2)f(x_i)\\&=\sum^k_{i=1} x_i^2f(x_i) -2\mu \sum^k_{i=1} x_if(x_i)+ \mu^2\\&=\sum^k_{i=1} x_i^2f(x_i)-2\mu^2+\mu^2\\&=\sum^k_{i=1} x_i^2f(x_i)-\mu^2\\&=E(X^2)-(E(X))^2\\ \because& \sum^k_{i=1} x_if(x_i)=\mu, \quad \sum^k_{i=1} f(x_i)=1 \end{align} (식 2) 분산은 확률변수의 분포를 나타내는 지표이며 식 2에서 나타낸 것과 같이 2차 모멘트와 1차 모멘트의 차로 계산됩니다. 즉, 분산은 기대값으로부터 파생되므로 분산 역시 기대값의 특성인 선형결합이 가능합니다. 그러나 식 3과 같이 분산의 선형결합은 기대값의 그것과는 다른 형태를 보입니다. \begin{align}\text{var}(ax+b)&=\sigma_...

[data analysis] 확률과 주요통계량: 모멘트와 기대값

확률과 주요통계량 내용 모멘트(Moment) 기대값(Expected Value) 기대값의 선형결합 확률과 주요통계량: 모멘트와 기대값 예제 모멘트(Moment) 확률변수와 확률 분포의 특징과 형태를 수학적으로 설명하기 위한 정량적 지표를 모멘트(moment) 라고 하며 식 1과 같이 정의합니다. $$\begin{align}\tag{식 1}&\text{n 차 모멘트}= E(x^n)\\ &n= 1, 2, \cdots \end{align}$$ 식 1에서 E(x)는 확률변수 x에 대한 기대값(평균)을 나타냅니다. 그러므로 모멘트(moment) 는 변형된 확률변수의 기대값을 의미합니다. 이러한 모멘트는 기술 통계에서 소개한 평균 , 분산 과 함께 왜도, 첨도 등 다양한 통계량의 유도에 사용됩니다. 기대값(Expected Value) 평균은 변수들의 특성을 파악하기 위해 가장 많이 사용되는 통계량입니다. 이 통계량은 각 변수값에 대한 확률을 고려하는 것으로 기대값(expected value, E(X)) 이라고 합니다. 확률변수 x에 대응되는 확률은 다른 변수들에 비해 그 변수가 나타날 상대 가능도(relative likelihood) 를 의미합니다. 많은 경우 확률변수와 확률의 관계는 함수로 특정할 수 있으며 그 함수를 확률함수라고 합니다. 확률함수는 변수가 이산형일경우에는 확률질량함수(probability mass function) , 연속형일 경우에는 확률밀도함수(probability density function) 로 구분합니다. 일반적으로 확률밀도(질량)함수는 f(x)로 나타내며 그 함수의 합(적분)인 누적확률함수는 F(x)로 표현합니다. 이 확률밀도(질량) 함수를 사용하여 1차모멘트인 평균은 식 2와 같이 계산할 수 있습니다. $$\tag{식 2}\mu=E(X)=\begin{cases}\sum^N_{i=0} x_iP(X=x_i)&x:\text{이산변수},\; N:\text{샘플 크기...

[python]확률과 주요통계량: 왜도(skewness)와 첨도(kurtosis)

왜도와 첨도 관련내용 확률과 주요통계량: 모멘트와 기대값 확률과 주요통계량: 분산 왜도와 첨도 왜도와 첨도는 평균, 분산과 함께 확률분포의 특성을 나타내는 주요 통계량으로 사용됩니다. 왜도(skewness) 는 평균(중심)을 기준으로 분포의 좌우의 비대칭성의 정도를 나타내고 첨도(kurtosis) 는 분포의 peak 즉 봉우리의 뾰족한 정도를 나타내는 통계량입니다. 왜도와 첨도는 확률변수의 개개의 값과 평균의 차이에 대해 3제곱과 4제곱을 적용한 새로운 확률변수에 대한 기대값입니다. 즉, 두 통계량은 각각 3차와 4차 모멘트가 됩니다. 왜도는 식 1, 첨도는 식 2과 같이 정의됩니다. 왜도(skewness) 3차 모멘트 표준정규분포의 왜도 = 0 skewness > 0: 분포가 오른쪽으로 기울어진 형태(skewed to right) skewness < 0: 분포가 왼쪽으로 기울어진 형태(skew to left) \begin{align}\text{skewness}&=E\left(\frac{X-\mu}{\sigma} \right)^3\\&=\frac{E(X-\mu)^3}{\sigma^3} \end{align} (식 1) 첨도(kurtosis) 4차 모멘트는 첨도를 나타내는데 실제적으로 -3을 고려합니다. 표준정규분포의 첨도= 0(4차 모멘트 = 3): mesokurtic(정규분포) kurtosis > 0: letokurtic 또는 fat-tailed \begin{align}E\left(\frac{X-\mu}{\sigma} \right)^4-3\\&=\frac{e(X-\mu)^4}{\sigma^4}-3 \end{align} (식 2) 주가자료(stock data)의 경우는 leptokurtic 즉, 정규분포보다 두툼한 꼬리와 두개의 봉우리가 생성되는 보이는 경향이 일반적입니다. 성공확률 p인 베르누이 시행을 반복하는 이항분포(Binomial distr...