기본 콘텐츠로 건너뛰기

라벨이 변수 중요도인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 재귀적 변수제거(recursive features elimination)

재귀적 변수제거(recursive features elimination) 여러개의 설명변수들과 반응변수 사이의 구축되는 다중 회귀모델에서 각 설명변수가 모델에 미치는 영향을 결정할 수 있습니다. 즉, 모든 설명변수를 포함하는 full model에서 각 설명변수에 대응하는 회귀계수의 절대값의 크기로 모델에 주는 영향을 판단할 수 있습니다. 그 영향력의 순위에 따라 변수를 선택합니다. 다음과 같이 변수를 선택합니다. 완전모형(Full model) 구축 가장 낮은 변수 중요도에 대응하는 부분을 제거 2 결과로부터 완전모형을 구축하고 2를 실행 지정한 설명변수의 수가 달성 될 떄까지 3의 과정을 반복 select_feature.RFE(estimator=, n_features_to_select=, step=1) 클래스로 수행합니다. 이 클래스의 인수 중 estimator는 회귀모형입니다. [변수 중요도(feature_importance)] 변수 중요도는 식 1과 같이 설명변수와 반응변수의 상관계수와 회귀모델에 의해 결정되는 각 변수에 대응하는 회귀계수에 의해 파악할 수 있습니다. 상관계수는 [-1, 1]이므로 이 값으로 영향도의 순위를 정할 수 없습니다. 그러므로 상관계수의 절대값을 기준으로 영향도를 측정합니다. 회귀계수 역시 절대값을 기준으로 합니다. \begin{align}\tag {식 1} \hat{y}&=b_0+b_1x_1+b_2x_2+ \cdots + b_px_p\\ \text{importance}_i&=\frac{\vert{b_i}\vert}{\sum^p_{i=1} \vert{b_i}\vert} \end{align} 예 1) 코스피지수(kos), 코스탁지수(kq), kodex 레버리지(kl), kodex 인버스(ki), 그리고 원달러환율(WonDol)의 일일 시가, 고가, 저가, 종가(o,h,p,c)들을 설명변수로 사용하여 삼성전자(sam)의 일일 종가를 추정하는 회귀모델을 위해 설명변수를 선...