기본 콘텐츠로 건너뛰기

라벨이 신뢰수준인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 신뢰구간(Confidence Interval)

신뢰구간(Confidence Interval) 표본평균($\bar{x}$)은 모평균(μ)을 위한 적합한 추정량이 될 수 있지만 불확실성이 존재합니다. 그 불확실성을 감소시키 위해 그 추정량을 기준으로 모평균의 존재 가능성이 높은 구간을 설정할 수 있습니다. 예를 들어 중심극한 정리에 의해 자료의 수가 크다면 정규분포를 가정할 수 있습니다. 즉, 표본수가 큰 표본분포의 경우 정규분포로 가정할 수 있으며 최대 확률을 보이는 평균을 중심으로 양쪽 또는 한쪽 방향으로 추정값이 존재할 수 있는 구간(신뢰구간)을 지정할 수 있습니다. 추정량이 모평균을 추정하는 신뢰구간 내에 존재한다면 모평균으로 사용할 수 있는 근거가 마련된 것입니다. 그러나 그 구간(interval) 외에 위치한다면 모평균으로 사용하는 것이 어렵다고 할 수 있습니다. 즉, 분포의 가정과 신뢰구간은 추정량의 채택 또는 기각에 대한 판정기준으로 사용됩니다. 신뢰구간은 발생할 수 있는 모든 값들 중에 추정치로 사용할 수 있는 값들이 포함되는 범위를 의미합니다. 이 범위는 분포상에서 점유하고 있는 누적확률로 나타낼 수 있습니다. 그림 1은 표준정규분포에서 평균을 중심으로 95%의 확률이 점유하는 면적으로 나타낸 것입니다. 이 경우 랜덤변수의 구간은 (-1.96, 1.96)이 됩니다. 즉, 이 구간내에 존재하는 값은 합리적인 추정치로 고려할 수 있음을 의미합니다. 물론 그 신뢰구간의 범위는 설정하는 누적확률에 따라 달라질 것입니다. 그림 1. N(0, 1)에서 확률 95%에 대응하는 신뢰구간. import numpy as np from scipy import stats import matplotlib.pyplot as plt x=np.linspace(-3, 3, 1000) plt.figure(figsize=(4,3)) plt.plot(x, stats.norm.pdf(x), color="g", label="N(0,1)") x1=np.linspace(-1.96,...