Son's Data story

글

라벨이 standard_deviation인 게시물 표시

표준편차와 표준오차

내용 자유도 표준편차와 표준오차 자료의 특성을 나타내는 기본적인 통계량은 평균과 분산이 있습니다. 평균은 자료의 중심을 나타내고 퍼짐 정도는 분산으로 표시합니다. 분산의 제곱근이 표준편차이므로 이 통계량의 단위는 자료와 같기 때문에 분산보다는 표준편차를 더 유용하게 사용됩니다. 표준편차는 자료의 퍼짐성을 나타내는 자료로서 모집단의 표준편차(σ)를 알 수 없는 경우 식 1과 같이 계산된 표본표준편차(s)를 사용합니다. $$\begin{align}\tag{1}&\text{s}=\sqrt{\frac{\sum^n_{i=1}(x_i - \overline{x})^2}{n-1}}\\ &\text{s}: \text{표본표준편차}\\&n: \text{표본수}\end{align}$$ 식 1에서 분모는 자유도(degree of freedom, df) 입니다. 자유도 자유도는 자료의 값들이 확률 변수가 될 수 있는 정도를 의미합니다. 예를 들어 1, 2, 3의 값을 가진 표본의 경우 그 자료에 세 값이 나타날 확률은 동일하기 때문에 3 값 모두 확률변수가 되며 자유도는 3이 됩니다. 그러나 평균과 2개의 값을 안다면 나머지 값은 결정되므로 확률변수가 될 규모는 3개에서 2개로 감소됩니다. 이와 같이 자료의 통계량에 의해 자유도는 감소합니다. 그러므로 평균을 알려진 자료의 경우 자유도는 자료의 크기에서 1만큼 감소됩니다. 표준편차는 평균을 기준으로 각 자료의 퍼짐의 정도를 나타내는 것으로서 표본 수가 아니라 표본의 자유도를 고려해야 합니다. 이렇게 계산된 표준편차는 자료의 각 값과 평균과의 편차의 정도를 나타냅니다. 모평균을 모르는 경우 표본을 기준으로 통계적 분석이 이루어집니다. 그러나 표본평균은 모평균을 대신하는 과정에서 불확실성이 존재합니다. 그 불확실성은 표본들로부터 산출되는 통계량인 표본평균들과 모평균 사이의 오차로서 나타낼 수 있습니다. 그 통계량을 표준오차(standard error) 라고 합니다. 표 1

자세한 내용 보기

변동(Variation)

내용 범위(Range) 4분위수(quantile) 평균절대편차(MAD) 분산(Variance) 표준편차(Standard Deviation) 자유도(Degree of Freedom) 분산계수(Variation Coefficient) 변동(Variation) 변동(variation) 또는 스프레드(spread) 는 데이터들의 퍼짐 정도를 나타내는 것으로서 자료의 특성을 설명하는 기본 정보 입니다. 평균 등의 위치정보와 함께 변동을 사용하여 자료의 분포를 설명할 수 있습니다. 예를 들어 다음 자료는 일정기간의 코스피 주식 가격에 대한 자료입니다. 이 자료는 연속형이지만 다음 표와 같이 각 값들을 특정 구간으로 구분하여 목록변수로 전환한 것입니다. 목록 구간 하한 상한 1 2958.12 2978.12 2 2978.12 2998.12 3 2998.12 3018.12 4 3018.12 3038.12 5 3038.12 3058.12 6 3058.12 3078.12 7 3078.12 3098.12 8 3098.12 3118.12 9 3118.12 3138.12 10 3138.12 3158.12 11 3158.12 $\sim$ 파이썬 라이브러리 FinanceDataReader 를 사용하여 다양한 금융자료를 가져올 수 있습니다. 다음 자료는 이 라이브러리의 DataReader() 함수를 사용하여 지정한 기간의 코스피 주가를 호출한 것입니다. 이 데이터는 연속형이므로 목록형으로 전환하기 위해 pd.cut() 함수를 사용합니다. 이 함수는 구간을 지정하여 각 인스턴스에 대한 목록화된 결과를 첫번째, 두번째로 각 구간의 경계점을 반환합니다. 또한 np.histogram() 을 사용하여 각 구간의 빈도수를 나타낼 수 있습니다. import nu

자세한 내용 보기

Son's Data story

이 블로그 검색

글

통계관련 함수와 메서드 사전

표준편차와 표준오차

변동(Variation)