[data analysis] 정규화된 회귀모델

정규화된 회귀모델

회귀분석을 위한 데이터들 사이에 상호 관계가 0인 경우는 거의 존재하지 않습니다. 모든 변수가 반응변수와 연관이 있기 때문에 설명변수들 사이에 어느정도의 상관성이 존재하기 때문입니다. 그러므로 다중 회귀분석의 경우 다중공선성 문제는 내재되어 있습니다. 이 문제는 변수를 선택하는 방법으로 감소시킬 수 있습니다. 또한 기사 다중 공선성(Multicolinearity)에서 언급한 것과 같이 변수들의 분산과 공분산의 차이를 확대시키는 방법으로 감소시킬 수 있습니다. 이러한 기법의 회귀 분석에서 ridge 회기와 lasso 회귀 모델이 있습니다.

다양한 방법들을 적용하여 많은 수의 설명변수들을 가진 자료에서 주요한 변수를 선택합니다(특징(변수) 선택 참조). ridge와 lasso 회귀모델 역시 주요한 설명변수를 선택하여 모델의 복잡도를 감소시키고 다중공선성 문제를 감소시키기 위한 것입니다.

sons dataStory

이 블로그 검색

pandas_ta를 적용한 통계적 인덱스 지표

[data analysis] 정규화된 회귀모델

정규화된 회귀모델

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

유리함수 그래프와 점근선 그리기

부분분수의 미분