기본 콘텐츠로 건너뛰기

라벨이 등분산인 게시물 표시

[matplotlib]quiver()함수

[data analysis] Breusch-Pegan 검정

Breusch-Pegan 검정 Breusch-Pegan 검정은 회귀모델에서 발생하는 잔차의 이분산성을 검정합니다. 귀무가설과 대립가설은 다음과 같습니다. ( 회귀분석 에 대한 지식이 필요합니다. ) H0: 등분산입니다.(Homoscedasticity) H1: 이분산이 존재합니다.(Heteroscedasiticity) 이 방법은 다음 과정으로 실현됩니다. 회귀모델 생성 모델의 잔차 제곱을 계산 반응변수로서 잔차 제곱을 사용하여 새로운 회귀모델을 생성 nR 2 new 를 통계량으로 χ 2 검정 실시(자유도는 설명변수의 수) n: 데이터 크기, R 2 new : 잔차 제곱을 반응변수로 설정한 회귀모델의 결정계수 이 검정은 statsmodels.stats.diagnostic.het_breuschpagan(잔차, 설명변수) 함수를 사용합니다. 이 함수는 라그랑쥬 승수 통계량(Lagrange multiplier statistic)과 p-value, f-통계량과 p-value를 반환합니다. ( 회귀분석 참조 )

[data analysis] Fligner 검정

Fligner 검정 관련된 내용 Bartlett 검정 Fligner 검정 Levene Test Breusch-Pegan 검정 데이터의 정규성을 파악할 수 없는 경우 비모수 방법인 Fligner 검정으로 등분산성을 검정할 수 있습니다. Fligner-Killeen 중앙값 검정은 정규성에서 벗어나는 자료들에 대해 분산의 동질성에 대한 검정입니다(Conover et al.(1981), [CON1]). 즉, 데이터의 순위를 이용하여 검정하는 것으로 검정통계량은 식 1과 같이 정의됩니다. \begin{align}FK &= \frac{\sum^k_{j=1} n_j(\bar{a_j}-\bar{a})}{s^2} \\& k: \,\text{비교할 그룹(변수)의 수} \\& \bar{a_j} : \,\text{j 그룹의 표준점수의 평균} \\& \bar{a}: \,\text{모든 표준점수의 평균} \\& s^2: \,\text{모든 표준점수의 분산} \end{align} (식 1) 식 1의 FK 검정통계량은 자유도 k-1의 χ 2 분포를 따릅니다. 즉, 표준정규분포에 부합하는 각 변수들의 제곱에 대한 분포를 따른다면 분산은 같습니다. 그러므로 이 분석의 귀무가설과 대립가설은 다음과 같습니다. 귀무가설(H0): 집단들의 분산이 같다. 대립가설(Ha): 최소한 두 집단간의 분산이 다르다. stats.fligner() 함수를 사용합니다. 예 1) 일정기간의 코스피지수, 코스탁지수, 다우존스지수, 원-달러 환율의 일일 종가의 변화율 자료들의 Fligner 등분산성 검정을 실시합니다. kos kq dj WonDol 1 0.016 0.008 0.006 0.002 2 -0.007 -0.004 0.014 -0.000 3 0.021 0.008 0.007 0.000 4 0.040 -0.001 0.002 0.006 5 -0.001 -0.01...

[data analysis] Bartlett 검정

Bartlett 검정 관련된 내용 Bartlett 검정 Fligner 검정 Levene Test Breusch-Pegan 검정 Bartlett 검정은 집단(표본)간 분산에 대해 등분산성을 검정합니다. 이 검정은 두 집단 이상의 자료형식에서도 적용할 수 있으므로 t-검정 또는 일원분산분석 에 적용할 자료의 등분산성 가정을 위한 검정에 사용합니다. 이 검정은 정규분포에 부합하는 k개의 그룹에 대한 자유도 k-1인 카이자승(χ 2 ) 분포를 기반으로 합니다. 결정기준인 검정 통계량은 식 1과 같이 계산됩니다. χ 2 분포를 기반으로 하기 때문에 표본이 정규분포를 따르는 것을 전제조건으로 합니다. 만약 표본이 비정규 분포에서 추출된 표본의 경우 이 검정은 단순히 분포의 비정규성을 검정하는 것일 수 있습니다. \begin{align}T&=\frac{(N-k)\ln(s^2_p)-\sum^k_{i=1}(N_i-1)\ln(s^2_i)}{1+\frac{1}{3(k-1)}\left(\left(\sum^k_{i=1}\frac{1}{n_i-1}\right)-\frac{1}{N-k} \right)}\\& s^2_i:\, \text{i 레벨(그룹)의 분산}\\& N: \,\text{자료의 크기} \\& k: \,\text{레벨(집단)의 수} \\& s^2_p: \,\text{합동분산(pooled variance)} \end{align} (식 1) 합동표준편차(pooled standard deviation) 참조 $$s^2_p=\sum^k_{i=1} \frac{N_i-1}{N-k}s^2_i$$ (식 2) 검정의 가설은 다음과 같습니다. 귀무가설(H0): 집단들의 분산이 같다. 대립가설(Ha): 최소한 두 집단간의 분산이 다르다. Bartlett 검정은 scipy.stats.bartlett(smaples...) 함수를 사용할 수 있습니다. 이 함수는 통계량과 유의확률(p-value)를...