sons dataStory

글

라벨이 SequentialFeatureSelector인 게시물 표시

[data analysis] sklearn.pipeline 적용

sklearn.pipeline 적용 Pipeline은 여러개의 측정자들(모형 클래스)을 하나로 연결하기 위해 사용할 수 있습니다. 이것은 데이터의 처리 과정 예를 들어 feature selection, normalization and classification 등의 과정을 고정된 연속 단계로 묶어서 처리 할 경우 사용됩니다. 다음은 회귀모델을 설정하기 위해서는 변수들의 표준화, 위에서 소개한 변수 선택 등의 전처리 과정이 포함될 수 있습니다. 이러한 일련의 과정들은 sklearn.pipeline.Pipeline() 클래스를 사용하여 일괄적으로 처리할 수 있습니다. 예 1) 코스피지수(kos), 코스탁지수(kq), kodex 레버리지(kl), kodex 인버스(ki), 그리고 원달러환율(WonDol)의 일일 시가, 고가, 저가, 종가(o,h,p,c)들을 설명변수로 사용하여 삼성전자(sam)의 일일 종가를 추정하는 회귀모델을 위해 설명변수를 선택합니다. 변수 선택과 회귀 모델생성을 위해 sklearn.pipeline() 클래스를 적용합니다. import numpy as np import pandas as pd from scipy import stats from sklearn import linear_model from sklearn.preprocessing import StandardScaler, MinMaxScaler import statsmodels.api as sm from sklearn.metrics import mean_squared_error from sklearn.model_selection import train_test_split import yfinance as yf from sklearn import feature_selection import matplotlib.pyplot as plt plt.rcParams['font.family'] ='NanumGothic' plt.rcParams['a...

sons dataStory

이 블로그 검색

글

[matplotlib]quiver()함수

[data analysis] sklearn.pipeline 적용