특징 선택(Feature selection)
특징(변수)선택은 추정에 기여하는 정도의 순서로 변수들을 자동으로 선택하는 과정입니다. 특징이 적을수록 회귀분석과 기계 학습 알고리즘을 더 효율적(공간 또는 시간 복잡성 감소)으로 실행할 수 있습니다. 일부 모델이나 기계 학습 알고리즘은 관련 없는 특징으로 인해 오도되어 예측 성능이 저하될 수 있습니다.
특징선택의 다음의 장점들에 의해 모델을 개선할 것입니다.
- 과적합 감소: 중복 데이터가 적다는 것은 노이즈를 기반으로 결정을 내릴 기회가 적다는 것을 의미합니다. 그러므로 모델의 일반화 가능성을 개선할 수 있습니다.
- 정확도 향상: 영향이 적은 데이터의 감소로 추정결과와 실제값 사이의 오차범위의 감소가 일어날 수 있으며 이러한 결과는 모델링 정확도의 향상을 가져옵니다.
- 훈련 시간 감소: 데이터가 적을수록 알고리즘이 더 빠르게 훈련됩니다.
변수 즉, 특징 선택을 위해 sklean 패키지
는 다양한 알고리즘을 위한 클래스를 제공합니다.
댓글
댓글 쓰기