[data analysis] 특징(설명 변수) 선택

특징 선택(Feature selection)

특징(변수)선택은 추정에 기여하는 정도의 순서로 변수들을 자동으로 선택하는 과정입니다. 특징이 적을수록 회귀분석과 기계 학습 알고리즘을 더 효율적(공간 또는 시간 복잡성 감소)으로 실행할 수 있습니다. 일부 모델이나 기계 학습 알고리즘은 관련 없는 특징으로 인해 오도되어 예측 성능이 저하될 수 있습니다.

특징선택의 다음의 장점들에 의해 모델을 개선할 것입니다.

과적합 감소: 중복 데이터가 적다는 것은 노이즈를 기반으로 결정을 내릴 기회가 적다는 것을 의미합니다. 그러므로 모델의 일반화 가능성을 개선할 수 있습니다.
정확도 향상: 영향이 적은 데이터의 감소로 추정결과와 실제값 사이의 오차범위의 감소가 일어날 수 있으며 이러한 결과는 모델링 정확도의 향상을 가져옵니다.
훈련 시간 감소: 데이터가 적을수록 알고리즘이 더 빠르게 훈련됩니다.

변수 즉, 특징 선택을 위해 sklean 패키지는 다양한 알고리즘을 위한 클래스를 제공합니다.

sons dataStory

이 블로그 검색

pandas_ta를 적용한 통계적 인덱스 지표

[data analysis] 특징(설명 변수) 선택

특징 선택(Feature selection)

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

유리함수 그래프와 점근선 그리기

부분분수의 미분