기본 콘텐츠로 건너뛰기

라벨이 검정인 게시물 표시

[matplotlib]quiver()함수

[data analysis] Fligner 검정

Fligner 검정 관련된 내용 Bartlett 검정 Fligner 검정 Levene Test Breusch-Pegan 검정 데이터의 정규성을 파악할 수 없는 경우 비모수 방법인 Fligner 검정으로 등분산성을 검정할 수 있습니다. Fligner-Killeen 중앙값 검정은 정규성에서 벗어나는 자료들에 대해 분산의 동질성에 대한 검정입니다(Conover et al.(1981), [CON1]). 즉, 데이터의 순위를 이용하여 검정하는 것으로 검정통계량은 식 1과 같이 정의됩니다. \begin{align}FK &= \frac{\sum^k_{j=1} n_j(\bar{a_j}-\bar{a})}{s^2} \\& k: \,\text{비교할 그룹(변수)의 수} \\& \bar{a_j} : \,\text{j 그룹의 표준점수의 평균} \\& \bar{a}: \,\text{모든 표준점수의 평균} \\& s^2: \,\text{모든 표준점수의 분산} \end{align} (식 1) 식 1의 FK 검정통계량은 자유도 k-1의 χ 2 분포를 따릅니다. 즉, 표준정규분포에 부합하는 각 변수들의 제곱에 대한 분포를 따른다면 분산은 같습니다. 그러므로 이 분석의 귀무가설과 대립가설은 다음과 같습니다. 귀무가설(H0): 집단들의 분산이 같다. 대립가설(Ha): 최소한 두 집단간의 분산이 다르다. stats.fligner() 함수를 사용합니다. 예 1) 일정기간의 코스피지수, 코스탁지수, 다우존스지수, 원-달러 환율의 일일 종가의 변화율 자료들의 Fligner 등분산성 검정을 실시합니다. kos kq dj WonDol 1 0.016 0.008 0.006 0.002 2 -0.007 -0.004 0.014 -0.000 3 0.021 0.008 0.007 0.000 4 0.040 -0.001 0.002 0.006 5 -0.001 -0.01...

[data analysis] Bartlett 검정

Bartlett 검정 관련된 내용 Bartlett 검정 Fligner 검정 Levene Test Breusch-Pegan 검정 Bartlett 검정은 집단(표본)간 분산에 대해 등분산성을 검정합니다. 이 검정은 두 집단 이상의 자료형식에서도 적용할 수 있으므로 t-검정 또는 일원분산분석 에 적용할 자료의 등분산성 가정을 위한 검정에 사용합니다. 이 검정은 정규분포에 부합하는 k개의 그룹에 대한 자유도 k-1인 카이자승(χ 2 ) 분포를 기반으로 합니다. 결정기준인 검정 통계량은 식 1과 같이 계산됩니다. χ 2 분포를 기반으로 하기 때문에 표본이 정규분포를 따르는 것을 전제조건으로 합니다. 만약 표본이 비정규 분포에서 추출된 표본의 경우 이 검정은 단순히 분포의 비정규성을 검정하는 것일 수 있습니다. \begin{align}T&=\frac{(N-k)\ln(s^2_p)-\sum^k_{i=1}(N_i-1)\ln(s^2_i)}{1+\frac{1}{3(k-1)}\left(\left(\sum^k_{i=1}\frac{1}{n_i-1}\right)-\frac{1}{N-k} \right)}\\& s^2_i:\, \text{i 레벨(그룹)의 분산}\\& N: \,\text{자료의 크기} \\& k: \,\text{레벨(집단)의 수} \\& s^2_p: \,\text{합동분산(pooled variance)} \end{align} (식 1) 합동표준편차(pooled standard deviation) 참조 $$s^2_p=\sum^k_{i=1} \frac{N_i-1}{N-k}s^2_i$$ (식 2) 검정의 가설은 다음과 같습니다. 귀무가설(H0): 집단들의 분산이 같다. 대립가설(Ha): 최소한 두 집단간의 분산이 다르다. Bartlett 검정은 scipy.stats.bartlett(smaples...) 함수를 사용할 수 있습니다. 이 함수는 통계량과 유의확률(p-value)를...

[data analysis]Anderson-Darling(AD) 검정

Anderson-Darling(AD) 검정 관련된 내용 Q-Q plot shapiro-Wilk test Kolmogorov-Smirnov Test Anderson-Darling 검정 Jarque-Bera test KS 검정은 표본의 분포와 특정분포를 비교하여 표본의 분포를 결정하기 위해 실시합니다. Anderson-Darling(AD) 검정은 KS 검정을 수정한 것으로 꼬리 부분에 더 많은 가중치를 부여합니다. 또한 KS 검정의 검정량 D는 비교하는 두 분포의 거리차로 특정한 분포를 가정하지 않습니다. 반면이 AD 검정은 임계값을 계산할 떄 정규, 균일, 지수등의 특정분포를 사용합니다. 그러므로 민감한 검정이 가능합니다. 각 분포에 대한 임계값 D를 계산하는 것이 가능하지만 일반적으로 다양한 통계 프로그램에서 제공됩니다.이 검정은 scipy.stats.ansderson(x, dist="norm") 함수에 의한 결과로 판단할 수 있습니다. Anderson-Daring(AD) 검정의 귀무가설과 통계량을 식 1과 같습니다. H0: 데이터는 특정 분포를 따릅니다. (식 1) 검정 통계량 A 2 = -N − S $$S=\sum^N_{i=1}\frac{2i-1}{N}\left[\ln F(y_i) + \ln(1-F(y_{N+1-i})\right]$$ 식 1에서 F(y)는 특정분포의 누적분포 함수이고 y i 는 정렬된 데이터(ordered data)입니다. 예 1) 다음은 일정한 기간의 kospi 지수와 kosdaq 지수의 일일 종가 자료입니다. kospi kosdaq 0 2669.8 878.9 1 2607.3 871.6 2 2587.0 866.2 ...

[data analysis]정규성검정(Normality Test)

정규성검정(Normality Test) 관련된 내용 Q-Q plot shapiro-Wilk test Kolmogorov-Smirnov Test Anderson-Darling 검정 Jarque-Bera test 중심극한정리 에 의해 자료의 샘플 수가 증가할수록 정규분포에 근접합니다. 특히 표본평균들의 분포인 표본분포는 정규분포에 부합합니다. 그러나 평균이 아닌 원시데이터(raw data)의 경우 정규분포에 부합여부가 중요한 경우가 있습니다. 예를 들어 회귀분석의 경우 관찰값과 회귀 모형에 의한 예측값들의 차이를 잔차(residuals) 라고 하는데 잔차가 정규분포에 부합한다는 가정하에 실시됩니다. 그 가정에 부합하는가의 여부가 성립된 모형의 적합도를 결정할 판단근거가 됩니다. 정규성 검정은 다음 방법을 사용합니다. Quantile-Quantile plot: 시각적 분석에 의한 결정 Shaprio-Wilks test: 표본수(n < 2000)인 경우에 주로 사용 Kolmogoroves-Smrinov test: n > 2000인 경우에 사용 Jarque-Bera Test

[data analysis] 단측검정과 양측검정

단측검정과 양측검정 자료로부터 모평균 추정에 대한 귀무가설은 식 1과 같이 작성할 수 있습니다. 가설 1     H0: μ = X bar ,  H1: μ ≠ X bar (식 1) 가설 2     H0: μ ≥ X bar ,  H1: μ ≤ X bar 위 가설 1의 경우 모평균이 표본평균과의 일치 여부를 검정하는 것으로 그 방향은 무관합니다. 즉, 정규분포의 평균을 중심으로 왼쪽 또는 오른쪽에 존재 여부는 관심이 없습니다. 이러한 경우를 양측검정(two-side test) 이라고 합니다. 이와는 대조적으로 가설 2는 방향을 설정할 수 있습니다. 모평균은 표본평균보다 큰 위치에 존재하는지를 검정하는 것으로 단측검정(one-side test) 라고 합니다. 예 1) 다음은 일정기간의 kodex 반도체의 일일종가 변화율 자료입니다. 이 자료를 모집단으로 하고 표집한 표본분포의 표본평균을 모평균의 불편추정치로 사용하기 위한 다음의 가설 검정을 실시합니다. 양측검정 - 귀무가설 : μ = x bar 단측검정 - 귀무가설 : μ ≤ x bar 변화율 0 -1.436219 1 -3.177106 2 1.112887 ... ... 114 -2.279976 117 -0.781979 118 -1.729208 위 자료는 다음의 코드로 호출한 것입니다. import numpy as np import pandas as pd from sklearn.preprocessing import StandardScaler from scipy import stats import matplotl...

[data analysis] 가설검정(Hypothesis test)

가설검정(Hypothesis test) 통계적 추론은 표본에서 계산된 통계량을 기반으로 모집단의 모수에 대한 잠정적인 가설을 설정하는 단계와 그 가설을 채택 또는 기각하기 위한 검정 단계로 구성됩니다. 검정 단계에서 판단의 기준이 되는 통계량을 검정통계량 이라고 합니다. 그 검정 통계량을 기준으로 더 극단적인 통계량이 나타날 확률을 유의확률(p-value) 이라 합니다. p-value와 유의수준을 비교하여 그 통계량의 채택 또는 기각이 결정됩니다. p-value < 유의수준 : 참(true)으로 가정하는 가설을 기각(신뢰구간의 외부에 존재) p-value > 유의수준 : 참(true)으로 가정하는 가설을 기각하지 못함 [검정력(Power)과 표본수(Sample size)] 검정력은 잘못된 가설을 기각할 수 있는 확률을 의미합니다. 예를 들어 검정력이 90 %일 경우 잘못된 가설을 채택할 확률이 10 %가 존재함을 나타냅니다. 이것은 표 1에서 나타낸 제2종 오류입니다. 이러한 검정력은 표본수가 커지면 증가합니다. 그러므로 원하는 검정력을 얻기 위해서 적정한 표본수를 확보해야 합니다. 표 1 오류의 종류 H0 진실 H0 거짓 H0 채택 옳은 결정 제2종오류(type II error) H0 기각 제1종오류(type I error, α) 옳은 결정 귀무가설과 대립가설 분석자는 표본평균들의 평균을 모평균의 추정치로 사용한다는 가설을 세우고 이 가설에 대한 통계적 타당성을 검정할 수 있습니다. 이 가설이 통계적으로 유의한 차이를 보이지 않기 때문에 기각되지 않을 것으로 예상합니다. 이러한 가설을 귀무가설(null hypothesis, H0) 이라합니다. 반대로 기각 될 것으로 예상되는 가설을 대립가설(alternative hypothesis, H1) 이라 합니다. 귀무가설의 검정은 표본의 정보 즉, 검정통계량을 기반합니다. 이 통계적 분석을 가설검정이라 하며 표 1에서 나타낸 제1종 ...