Son's Data story

글

라벨이 variance인 게시물 표시

확률과 주요통계량: 분산

내용 분산 (Variance) 확률과 주요통계량: 분산 분산 (Variance) 분산(variance) 은 데이터 변동성 을 나타내는 것으로 식 1과 같이 계산되며 분산의 제곱근이 표준편차(standard deviation, $\sigma$) 가 됩니다. $$\begin{align}\tag{1}\sigma^2&=E(X-\mu)^2\\&=(x_1-\mu)^2P(X=x_1)+ \cdots+(x_k-\mu)^2P(X=x_k)\\&=\sum^k_{i=1} (x_k-\mu)^2P(X=x_k) \end{align}$$ 자료 분포에 대한 퍼짐의 척도인 분산은 각 데이터와 평균사이의 편차 제곱에 대한 가중 평균입니다. 식 1은 다음과 같이 간략하게 정리됩니다. $$\begin{align}&\begin{aligned}\sigma^2&=\sum (x-\mu)^2P(X=x)\\&=\sum(x^2-2x\mu+\mu^2)f(x)\\&=\sum x^2f(x) -2\mu \sum xf(x)+ \mu^2\\&=\sum x^2f(x)-\mu^2\\&=E(X^2)-(E(X))^2 \end{aligned}\\ & \because \sum xf(x)=\mu \end{align}$$ 위 식과 같이 분산의 계산은 변수의 제곱에 대한 기대값과 평균의 제곱으로 구성됩니다. 그 변수 제곱의 기대값은 2차 모멘트 라고 합니다. 다시말하면 변수의 차수에 따른 기대값은 그 차수에 대한 모멘트 로 표현합니다. 그러므로 분산은 2차 모멘트와 1차 모멘트의 제곱의 차로 계산되며 모두 기대값이므로 식 2와 같은 선형결합이 성립합니다. $$\begin{align}\tag{2} Var(aX+b)&=\sigma^2_{ax+b}\\&=E[((aX+b)-\mu_{aX+b})^2]\\ &=E[((aX+b)-E(aX+b))^2]\\&=E[((aX+b)-aE(X)+b)^2]\\&=E[(a(X-\mu))^

자세한 내용 보기

변동(Variation)

내용 범위(Range) 4분위수(quantile) 평균절대편차(MAD) 분산(Variance) 표준편차(Standard Deviation) 자유도(Degree of Freedom) 분산계수(Variation Coefficient) 변동(Variation) 변동(variation) 또는 스프레드(spread) 는 데이터들의 퍼짐 정도를 나타내는 것으로서 자료의 특성을 설명하는 기본 정보 입니다. 평균 등의 위치정보와 함께 변동을 사용하여 자료의 분포를 설명할 수 있습니다. 예를 들어 다음 자료는 일정기간의 코스피 주식 가격에 대한 자료입니다. 이 자료는 연속형이지만 다음 표와 같이 각 값들을 특정 구간으로 구분하여 목록변수로 전환한 것입니다. 목록 구간 하한 상한 1 2958.12 2978.12 2 2978.12 2998.12 3 2998.12 3018.12 4 3018.12 3038.12 5 3038.12 3058.12 6 3058.12 3078.12 7 3078.12 3098.12 8 3098.12 3118.12 9 3118.12 3138.12 10 3138.12 3158.12 11 3158.12 $\sim$ 파이썬 라이브러리 FinanceDataReader 를 사용하여 다양한 금융자료를 가져올 수 있습니다. 다음 자료는 이 라이브러리의 DataReader() 함수를 사용하여 지정한 기간의 코스피 주가를 호출한 것입니다. 이 데이터는 연속형이므로 목록형으로 전환하기 위해 pd.cut() 함수를 사용합니다. 이 함수는 구간을 지정하여 각 인스턴스에 대한 목록화된 결과를 첫번째, 두번째로 각 구간의 경계점을 반환합니다. 또한 np.histogram() 을 사용하여 각 구간의 빈도수를 나타낼 수 있습니다. import nu

자세한 내용 보기

Variance

Variance As introduced in descriptive statistics, **variance** represents data variability and is calculated as Equation 1, and the square root of the variance becomes the standard deviation (σ). $$\begin{equation}\tag{1} \begin{aligned}\sigma^2&=E(X-\mu)^2\\&=(x_1-\mu)^2P(X=x_1)+ \cdots+(x_k-\mu)^2P(X=x_k)\\&=\sum^k_{i=1} (x_k-\mu)^2P(X=x_k) \end{aligned} \end{equation}$$ Variance, a measure of the spread of a data distribution, is the weighted average of the squared deviations between each data and the mean. Equation 1 is simplified to: $$\begin{aligned}&\begin{aligned}\sigma^2&=\sum (x-\mu)^2P(X=x)\\&=\sum(x^2-2x\mu+\mu^2)f(x)\\&=\sum x^2f(x) -2\mu \sum xf(x)+ \mu^2\\&=\sum x^2f(x)-\mu^2\\&=E(X^2)-(E(X))^2 \end{aligned}\\ & \because \sum xf(x)=\mu \end{aligned}$$ As in the above expression, the calculation of variance consists of the expected value of the square of the variable and the square of the mean. The expected value of that var

자세한 내용 보기

Son's Data story

이 블로그 검색

글

통계관련 함수와 메서드 사전

확률과 주요통계량: 분산

변동(Variation)

Variance