Son's Data story

글

라벨이 특성선택인 게시물 표시

특성 선택(Feature selection)

내용 분산에 의한 선택 일변량 선택(Univariate Selection) 재귀적 특징 제거(Recursive Feature Elimination, RFE) Information value 특성 선택(Feature selection) 특성 선택(feature selection) 특성선택은 추정에 기여하는 정도의 순서로 변수들을 자동으로 선택하는 과정입니다. 특성이 적을수록 회귀분석과 기계 학습 알고리즘을 더 효율적으로(공간 또는 시간 복잡성 감소) 더 효과적으로 실행할 수 있습니다. 일부 모델이나 기계 학습 알고리즘은 관련 없는 입력 기능으로 인해 오도되어 예측 성능이 저하될 수 있습니다. 특성선택의 다음의 장점들에 의해 모델을 개선할 것입니다. 과적합 감소: 중복 데이터가 적다는 것은 노이즈를 기반으로 결정을 내릴 기회가 적다는 것을 의미합니다. 그러므로 모델의 일반화 가능성을 개선할 수 있습니다. 정확도 향상: 영향이 적은 데이터의 감소로 추정결과와 실제값 사이의 오차범위의 감소가 일어날 수 있으며 이러한 결과는 모델링 정확도의 향상을 가져옵니다. 훈련 시간 감소: 데이터가 적을수록 알고리즘이 더 빠르게 훈련됩니다. 다음 데이터는 코스피 지수의 일 전 시가(Open), 고가(High), 저가(Low), 종가(Close)와 각 자료의 3일과 5일 이동평균치를 특성으로 하고 당일의 종가를 반응변수로 합니다. 이동 평균 데이터를 생성하기 위해 다음의 사용자정의함수 maDataMake()를 작성하여 적용하였습니다. import numpy as np import numpy.linalg as la import pandas as pd import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler from sklearn import metrics from sklearn.linear_

자세한 내용 보기

Son's Data story

이 블로그 검색

글

통계관련 함수와 메서드 사전

특성 선택(Feature selection)