기본 콘텐츠로 건너뛰기

라벨이 신뢰구간인 게시물 표시

[matplotlib]quiver()함수

통계 검정에 관련된 그래프

다음 그래프들은 전자책 파이썬과 함께하는 통계이야기 5 장에 수록된 그림들의 코드들입니다. import numpy as np import pandas as pd from scipy import stats from sklearn.preprocessing import StandardScaler import FinanceDataReader as fdr import yfinance as yf import matplotlib.pyplot as plt import seaborn as sns sns.set_style("darkgrid") #fig 511 st=pd.Timestamp(2024, 4,20) et=pd.Timestamp(2024, 5, 30) da1=fdr.DataReader('091160', st, et)["Close"] da2=fdr.DataReader('005930', st, et)["Close"] da1=da1.pct_change()[1:]*100 da2=da2.pct_change()[1:]*100 da=pd.DataFrame([da1, da2], index=['data1', 'data2']).T da.index=range(len(da1)) mu1, sd1, n1=np.mean(da1), np.std(da1, ddof=1), len(da1) mu2, sd2, n2=np.mean(da2), np.std(da2, ddof=1), len(da2) s_p=np.sqrt(((n1-1)*sd1**2+(n2-1)*sd2**2)/(n1+n2-2)) se=s_p*np.sqrt((1/n1+1/n2)) se=s_p*np.sqrt((1/n1+1/n2)) df=n1+n2-2 mu=mu1-mu2 ci=stats.t.interval(0.95, df, mu, se) testStatic=((mu1-mu2)-0)/se x=np.linspace(-3, 3, 500) ...

[data analysis] 신뢰구간(Confidence Interval)

신뢰구간(Confidence Interval) 표본평균($\bar{x}$)은 모평균(μ)을 위한 적합한 추정량이 될 수 있지만 불확실성이 존재합니다. 그 불확실성을 감소시키 위해 그 추정량을 기준으로 모평균의 존재 가능성이 높은 구간을 설정할 수 있습니다. 예를 들어 중심극한 정리에 의해 자료의 수가 크다면 정규분포를 가정할 수 있습니다. 즉, 표본수가 큰 표본분포의 경우 정규분포로 가정할 수 있으며 최대 확률을 보이는 평균을 중심으로 양쪽 또는 한쪽 방향으로 추정값이 존재할 수 있는 구간(신뢰구간)을 지정할 수 있습니다. 추정량이 모평균을 추정하는 신뢰구간 내에 존재한다면 모평균으로 사용할 수 있는 근거가 마련된 것입니다. 그러나 그 구간(interval) 외에 위치한다면 모평균으로 사용하는 것이 어렵다고 할 수 있습니다. 즉, 분포의 가정과 신뢰구간은 추정량의 채택 또는 기각에 대한 판정기준으로 사용됩니다. 신뢰구간은 발생할 수 있는 모든 값들 중에 추정치로 사용할 수 있는 값들이 포함되는 범위를 의미합니다. 이 범위는 분포상에서 점유하고 있는 누적확률로 나타낼 수 있습니다. 그림 1은 표준정규분포에서 평균을 중심으로 95%의 확률이 점유하는 면적으로 나타낸 것입니다. 이 경우 랜덤변수의 구간은 (-1.96, 1.96)이 됩니다. 즉, 이 구간내에 존재하는 값은 합리적인 추정치로 고려할 수 있음을 의미합니다. 물론 그 신뢰구간의 범위는 설정하는 누적확률에 따라 달라질 것입니다. 그림 1. N(0, 1)에서 확률 95%에 대응하는 신뢰구간. import numpy as np from scipy import stats import matplotlib.pyplot as plt x=np.linspace(-3, 3, 1000) plt.figure(figsize=(4,3)) plt.plot(x, stats.norm.pdf(x), color="g", label="N(0,1)") x1=np.linspace(-1.96,...

[data analysis] 추정(Estimation)

추정(Estimation) 추정에서는 모수의 특정값을 추정하는 점추정(point estimation) 과 모수가 포함될 일정한 구간을 추정하는 구간추정(interval estimation) 으로 구분됩니다. 표본으로부터 모집단의 모수들을 추정하기 위해 사용하는 통계량을 추정량(estimator) 라고하며 가정에 부합하며 어떠한 편의(bias)를 가지지 않는 추정치를 불편추정치(unbiased estimator) 로 사용합니다. 예를 들어 모평균을 추정하기 위해 표본평균을 불편추정치로 사용합니다. 각 표본의 평균들로부터 산출된 평균(표본평균)은 식 1과 같이 계산되며 모평균의 추정량이됩니다. \begin{align}\tag{1} \hat{\mu}&=\bar{x}\\ &=\frac{1}{n}(\bar{x_1}+\bar{x_2}+\cdots+\bar{x_n})\\ &=\frac{1}{n}\sum^n_{i=1}\bar{x_i } \end{align} (식 1) 또한 일반적으로 모표준편차 σ는 미지의 값이므로 표본분포의 표준편차 s를 불편추정량으로 사용하여 식 2와 같이 계산됩니다. \begin{align}\tag{2}&\begin{aligned}\hat{\sigma}&=s\\ &=\sqrt{\frac{1}{n-1}\sum^n_{i=1}(\bar{x_i}-\bar{x})} \end{aligned}\\ & n :\text{샘플 수} \end{align} (식 2) 표본의 통계량에 의해 추정된 모수는 모집단으로부터 표집되는 표본에 의존합니다. 기본적으로 모집단과 표본에는 차이가 존재하므로 추정된 모수는 불확실성을 내재합니다. 그러므로 점 추정치와 같이 하나의 값으로 모수를 나타내는 것보다 확률적으로 신뢰할 수 있는 수준에서 모수가 포함되는 구간을 설정하여 나타내는 것이 보다 합리적일 것입니다. 이러한 구간을 신뢰구간(confidence Interval) 이라 하며 그 구간에 대한 추정을...