기본 콘텐츠로 건너뛰기

라벨이 AIC인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 최대우도 추정: AIC와 BIC

최대우도 추정: AIC와 BIC AIC, BIC 등 확률적 모델 선택을 위한 평가 기준은 최대우도추정(maximum kikelihood estimation) 을 근거로 작동합니다. 최대우도 추정은 관찰치를 근거로 반응변수(라벨)를 추정하는데 우도(likelihood, 가능도) 를 최대로 하기 위한 모델의 매개변수(paramenter)를 발견하는 것입니다. 예를 들어 사건의 발생(1) 확률이 μ, 발생하지 않을(0) 확률이 1-μ라 하고 샘플 (0, 1, 0, 0, 1, 0)이 이항분포를 따른다고 할 경우 최대우도 추정(L(μ))는 식 1과 같이 계산됩니다. \begin{align}P(x=1)&=\mu, \quad P(x=0)=1-\mu\\ \tag{식 1}L(\mu)&=P(x=0)\cdot P(x=1) \cdot P(x=0)\cdot P(x=0)\cdot P(x=1)\cdot P(x=0)\\ &=(1-\mu)\cdot \mu \cdot (1-\mu)\cdot(1-\mu)\cdot\mu\cdot(1-\mu)\cdot\\ &=(1-\mu)^4\mu^2 \end{align} 수학적 편의를 위해 식 1은 2와 같이 양변에 로그화를 진행하고 최대값을 산출하기 위해 μ에 대한 미분의 극값을 계산합니다. 즉, $\frac{\partial \log(\mu)}{\partial \mu} = 0$ \begin{align}&\begin{aligned}\log(L(\mu)) &= \log((1-\mu)^4\mu^2)\\ &=4\log(1-\mu)+2\log(\mu)\end{aligned}\\ &\tag{식 2} \frac{\partial \log(\mu)}{\partial \mu} = 0\\ & \Rightarrow 4\frac{1}{1-\mu}(-1)+2\frac{1}{\mu}=0\\ & \Rightarrow -4\mu+2-2\mu=0\\ & \Rightarrow \mu=\frac{1}...

[data analysis] 설명변수 선택의 기준

설명변수 선택의 기준 결정계수와 수정결정계수 잔차평균제곱합(MSE) Mallow’s Cp 통계량 AIC와 BIC 최소자승법(OLS)에 의한 모형의 구축에는 충족되어야 하는 기본 조건들이 있습니다. 그 기본 가정들 중 하나인 설명변수의 독립성은 대부분의 현실 자료에서 충족시키기는 어렵습니다. 일반적으로 회귀모델은 반응변수에 영향을 주는 요인들을 설명변수로 하기 때문에 그들 사이에 어느 정도 상관성이 존재할 것입니다. 그러나 설명변수의 수 증가와 그들 사이의 높은 상관성은 모형 구축에 사용되는 데이터들에 대한 충실도가 증가하여 각 변수의 새로운 값들에 대한 추정의 정확도를 감소시키는 부작용을 발생시킬 수 있습니다. 이러한 현상을 과적합(over fitting) 이라 합니다. 이 문제는 다중 공선성(multicollinearity) 의 핵심적인 결과로서 추정의 신뢰성을 저하시킬 수 있습니다. 그러므로 반응변수 추정에 영향력을 가진 설명변수들을 적절하게 선택하는 것이 모형 생성에 중요한 부분이 됩니다. 결정계수와 수정결정계수 식 1에서 나타낸 것과 같이 결정계수 R 2 는 모형으로 추정된 값들에 내재하는 총 변동에 대한 회귀계수에 의한 변동의 비율을 나타냅니다( 회귀모형의 평가 참조 ). 즉, 회귀계수에 의한 변동이 증가한다면 추정값에 대한 회귀계수의 영향이 증가하는 것으로 모형의 신뢰성이 증가한다는 것을 의미합니다. 그러나 결정계수는 설명변수의 수에 비례하는 경향을 보입니다. 이러한 결정계수의 변화는 모델에 영향력이 큰 변수의 첨가 이후에는 안정한 상태로 유지됩니다. 그 부분이 변수를 선택하는 결정기준이 됩니다. \begin{align}R^2&= \frac{\text{SSReg}}{\text{SST}}\\ & = \frac{\text{SST}-\text{SSE}}{\text{SST}}\\& = 1- \frac{\text{SSE}}{\text{SST}}\\& =1-\frac{\sum^n_{i=1}...