기본 콘텐츠로 건너뛰기

라벨이 일변량 변수의 선택인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 일변량 변수의 선택

일변량 변수의 선택 2개 이상의 설명변수에서 각 변수가 반응변수에 미치는 영향을 고려하여 선택합니다. 즉, 설명변수 한개와 반응변수의 단순선형모델을 생성하여 각 모델의 f 검정 결과를 비교하여 변수를 선태합니다. 이 과정은 sklearn.feature_selection.SelectKBest(function, k=10) 클래스를 적용하여 계산할 수 있습니다. 이 클래스의 인수 function은 서브모듈인 feature_selection에서 제공하는 f_regression() 와 r_regression() 함수입니다. 이 함수는 각 모델의 f-통계량과 pearson's r(상관계수)를 반환하는 함수입니다. 인수 k는 선택되는 최대변수의 수로서 10이 기본값입니다. 예 1) 코스피지수(kos), 코스탁지수(kq), kodex 레버리지(kl), kodex 인버스(ki), 그리고 원달러환율(WonDol)의 일일 시가, 고가, 저가, 종가(o,h,p,c)들을 설명변수로 사용하여 삼성전자(sam)의 일일 종가를 추정하는 회귀모델을 위해 설명변수를 선택합니다. 이 모델에 적합한 설명변수들을 선택하기 위해 sklearn.feature_selection 모듈의 여러 클래스를 적용하여봅니다. import numpy as np import pandas as pd from scipy import stats from sklearn import linear_model from sklearn.preprocessing import StandardScaler, MinMaxScaler import statsmodels.api as sm from sklearn.metrics import mean_squared_error from sklearn.model_selection import train_test_split import yfinance as yf from sklearn import feature_selection import matplotlib.pyplot as ...