기본 콘텐츠로 건너뛰기

라벨이 선택인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 분산에 의한 설명변수 선택

분산에 의한 설명변수 선택 회귀모델 등의 모델에서 중요한 특징(feature) 즉, 설명변수는 반응변수(라벨, label)와의 강한 상관관계로 예측에 영향이 큰 변수를 의미합니다. 그러나 반응변수와의 상관성에 관계없이 특징 자체의 변동성이 크지 않다면 예측에 큰 도움이 되지 않을 가능성을 배제할 수 없습니다. 그러므로 분산 기준치보다 작은 분산을 가진 특징은 모델에서 제외할 수 있습니다. 다시말하자면 분산에 의해 특징(feature)을 선택할 수 있습니다. sklearn.feature_selection.VarianceThreshold() 클래스를 적용합니다. 이 방법은 특징의 분산을 기준으로 하기 때문에 반응변수와의 상관성 정도는 고려되지 않는다는 점을 주의해야 합니다. 예 1) 코스피지수(kos), 코스탁지수(kq), kodex 레버리지(kl), kodex 인버스(ki), 그리고 원달러환율(WonDol)의 일일 시가, 고가, 저가, 종가(o,h,p,c)들을 설명변수로 사용하여 삼성전자(sam)의 일일 종가를 추정하는 회귀모델을 위해 설명변수를 선택합니다. 이 모델에 적합한 설명변수들을 선택하기 위해 sklearn.feature_selection 모듈의 여러 클래스를 적용하여봅니다. import numpy as np import numpy.linalg as la import pandas as pd import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler, MinMaxScaler from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error from sklearn.model_selection import train_test_split from sklearn.model_selection import KFold import yfinance as yf ...