기본 콘텐츠로 건너뛰기

라벨이 등분산성인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 다중 회귀모형의 진단

다중 회귀모형의 진단 내용 정규성(normality) 과 이상치(outlier) 평가 독립성 선형성과 자기상관 등분산성 단순회귀모형과 같이 회귀분석은 몇 가지 가정 을 전제한 상태에서 모형을 구축합니다. 그러므로 그 가정의 충족되지 않은 자료들에서 생성된 모형의 경우 적용과 적합성에 문제가 발생됩니다. 예를 들어 데이터가 정규분포를 따르지 않는 상태에서 구축된 회귀모형의 예측 범위는 매우 넓어질 수 있으므로 그 자체의 의미가 감소됩니다. 또한 변수들의 독립성에 문제가 있는 경우 반응변수에 대한 설명변수들의 선택에서 발생하는 오류는 실제와 다른 결과를 가져올 수 있습니다. 이 원인들은 모두 회귀모형의 신뢰도를 악화시키며 예측정도를 빈약하게 만들 수 있습니다. 정규성(normality) 과 이상치(outlier) 평가 예 1) 다음 코드에 의해 생성된 자료 코스피지수(kos), 코스탁지수(kq), kodex 레버리지(kl), kodex 인버스(ki), 그리고 원달러환율(WonDol)의 일일 종가들을 설명변수로 사용하여 삼성전자(sam)의 일일 종가를 추정하는 회귀모델을 구축해 봅니다. (이 자료에서 설명변수는 반응변수보다 1일 앞선 데이터 입니다.) import numpy as np import pandas as pd import yfinance as yf st=pd.Timestamp(2023,1, 10) et=pd.Timestamp(2024, 5, 30) code=["^KS11", "^KQ11", "122630.KS", "114800.KS","KRW=X","005930.KS"] nme=["kos","kq","kl", "ki", "WonDol","sam" ] da={} for i, j in zip(nme,c...

[data analysis] Levene Test

Levene Test 관련된 내용 Bartlett 검정 Fligner 검정 Levene Test Breusch-Pegan 검정 Levene 테스트는 k 샘플(그룹)들의 등분산성을 검정하기 위해 사용합니다. 일부 통계 테스트(예: 분산 분석)에서는 분산이 그룹 또는 샘플 간에 동일하다고 가정하며 회귀분석에서는 다양한 회귀모델들로 계산되는 오차 분포의 분산이 동일하다고 가정합니다. Levene 테스트를 사용하여 이러한 가정을 확인할 수 있습니다. Levene 검정은 Bartlett 검정의 대안으로 자료의 정규성이 불확실한 경우 선호됩니다. 그러나 데이터가 실제로 정규 분포 또는 거의 정규 분포에서 나왔다는 강력한 증거가 있다면 Bartlett의 검정이 더 나은 성능을 보입니다. Levene 검정의 귀무가설과 대립가설은 일반적으로 다음과 같이 기술할 수 있습니다. H0: σ 1 = σ 2 = … = σ k H1: 최소한 한 그룹의 분산이 다름 Levene 검정 통계량(W)은 식 1와 같이 정의됩니다. \begin{align} W&=\frac{N-k}{k-1}\frac{\sum^k_{i=1}n_i(Z_{i.}-Z_{..})^2}{\sum^k_{i=1}\sum^{n_i}_{j=1}(Z_{ij}-Z_{i.})^2}\\ Z_i & =\frac{1}{n_i}\sum^{n_i}_{j=1}Z_{ij}\\ Z_{..} & =\frac{1}{N}\sum^k_{i=1}\sum^{n_i}_{j=1}Z_{ij}\\ & k: \,\text{그룹의 수} \\ & n_i: \,\text{i번째 그룹에 속하는 샘플의 수} \\ & N: \,\text{총 샘플 수} \\ & Z_{ij}:\, \text{i번째 그룹의 j번째 관측값}\, y_{ij}\text{과}\, \hat{y_i}\text{의} L_1 \text{norm입니다.}\end{align} (식 1) Z ij 는 식 2와 같이 계...