기본 콘텐츠로 건너뛰기

라벨이 scaling factor인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 오차의 분산

오차의 분산 관련된 내용 회귀모델의 오차에 대해 자기상관분석(Autocorrelation Analysis) 오차의 분산 각 샘플의 추정치 또는 오차의 분포는 회귀계수에만 의존하므로 모든 샘플들에서 발생하는 분포의 분산은 동일하다고 가정합니다( 표 1 참조 ). 그러나 다중회귀모델의 경우 여러 설명변수들 사이에 상관성(공분산의 존재)등으로 인해 이 가정을 만족시키지 못하는 경우가 대부분입니다. 공분산의 존재는 등분산 가정을 충족시키지 못하는 것으로 OLS에서 일반적으로 사용되는 통계적 추론 절차에 문제를 일으킵니다. 즉, 샘플링 분산을 추정하고 가설을 테스트하는 표준 방법이 편향된다는 것입니다. 그 결과 OLS에 의해 추정되는 회귀계수의 편향으로 예측의 신뢰가 감소될 수 있습니다. 등분산 가정이 충족되지 않는 경우 다음과 같이 방법으로 이 문제를 감소시킬 수 있습니다. 데이터 변환(예: 반응 변수 및/또는 설명 변수의 로그 취함)으로 일정한 분산을 달성 다중 설명변수들 중에 주요한 변수만을 선택 설명변수들 간에 정규화 회귀분석의 등분산성 가정을 수식으로 표현하면 식 1과 같습니다. \begin{align}\text{Var}(e|X)& = E(ee^T)\\& = \sigma_e^2 \cdot I \end{align} (식 1) 식 1에서 I는 항등행렬을 나타내는 것으로 σ e 2 I는 각 샘플에서 발생하는 오차의 분산이 같다는 것을 의미합니다(식 2). $$\sigma_e^2 \cdot I = \sigma_e^2\begin{bmatrix}1&0&\cdots&0\\0&1&\cdots&0\\ \vdots& \vdots& \ddots& \vdots\\ 0&0&\cdots&1\end{bmatrix}$$ (식 2) 회귀모형을 행렬시스템으로 나타내면 식 3와 같습니다. \begin{align}y&=X\b...