기본 콘텐츠로 건너뛰기

라벨이 ridge인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 정규화된 회귀모델

정규화된 회귀모델 회귀분석을 위한 데이터들 사이에 상호 관계가 0인 경우는 거의 존재하지 않습니다. 모든 변수가 반응변수와 연관이 있기 때문에 설명변수들 사이에 어느정도의 상관성이 존재하기 때문입니다. 그러므로 다중 회귀분석의 경우 다중공선성 문제는 내재되어 있습니다. 이 문제는 변수를 선택하는 방법으로 감소시킬 수 있습니다. 또한 기사 다중 공선성(Multicolinearity) 에서 언급한 것과 같이 변수들의 분산과 공분산의 차이를 확대시키는 방법으로 감소시킬 수 있습니다. 이러한 기법의 회귀 분석에서 ridge 회기와 lasso 회귀 모델이 있습니다. 다양한 방법들을 적용하여 많은 수의 설명변수들을 가진 자료에서 주요한 변수를 선택합니다( 특징(변수) 선택 참조 ). ridge와 lasso 회귀모델 역시 주요한 설명변수를 선택하여 모델의 복잡도를 감소시키고 다중공선성 문제를 감소시키기 위한 것입니다. Ridge 회귀모델 Lasso 회귀모델 Elasticnet 모델

[data analysis] Ridge 회귀모델

Ridge 회귀모델 Ridge 회귀에서의 mse식은 식 1과 같이 OLS로부터의 값에 회귀계수에 가중치를 고려하여 정의합니다. 이항을 패널티(penalty) 라고 하며 가중치는 패널티를 조절하기 위한 것으로 α라는 소멸 상수(shrinkage constant) 라고 합니다. 이 식으로 정의된 회귀계수의 경우 가중치로 인해 큰 값과 작은 값의 차이가 증가하므로 큰 계수에 의한 영향은 더욱 커지지만 작은 크기의 계수에 의한 영향은 더욱 감소할 것입니다. 이 과정은 영향력이 큰 설명변수들을 선택하는 것과 유사한 효과가 발생합니다. \begin{align}\text{MSE}&= (y − Xβ)^T(y − Xβ)-\alpha\Vert{\beta^2}\Vert \quad \alpha \ge 0\\ \frac{\partial \text{MSE}}{\partial \beta}& = −2X^Ty + 2X^TXβ - 2αβ = 0\\ \tag{식 1} \Leftrightarrow & (X^TX - αI)β = X^Ty\\ \Leftrightarrow & β = (X^TX - αI)^{-1}X^Ty\\ & X,\, y:\; \text{설명, 반응변수}\\& α,\, β:\; \text{소멸계수, 회귀계수}\end{align} 식 1에서 나타낸 것과 같이 ridge 모델의 패널티 항은 L2 Norm (계수의 제곱합)으로 회귀계수에 대해 2차식이 됩니다. 2차식의 미분으로 최소점을 계산할 수 있습니다. 식 2와 같이 X T X + αI는 변수들의 공분산행렬의 대각원소들에게만 변동을 주는 형태로 변수들의 각 분산과 공분산의 차이를 확대시킵니다. 이 결과는 다중공선성 에서 소개한 것과 같이 역행렬의 각 값을 축소하여 회귀계수들이 분산을 감소시킵니다. 이러한 감소는 다중공선성 문제의 축소로 이어야 집니다. $$\tag{식 2}\begin{bmatrix}x_1& x_2& x_3\\y_1& y_2& y_...