sklearn.pipeline 적용
Pipeline은 여러개의 측정자들(모형 클래스)을 하나로 연결하기 위해 사용할 수 있습니다. 이것은 데이터의 처리 과정 예를 들어 feature selection, normalization and classification 등의 과정을 고정된 연속 단계로 묶어서 처리 할 경우 사용됩니다.
다음은 회귀모델을 설정하기 위해서는 변수들의 표준화, 위에서 소개한 변수 선택 등의 전처리 과정이 포함될 수 있습니다. 이러한 일련의 과정들은 sklearn.pipeline.Pipeline() 클래스를 사용하여 일괄적으로 처리할 수 있습니다.
예 1)
코스피지수(kos), 코스탁지수(kq), kodex 레버리지(kl), kodex 인버스(ki), 그리고 원달러환율(WonDol)의 일일 시가, 고가, 저가, 종가(o,h,p,c)들을 설명변수로 사용하여 삼성전자(sam)의 일일 종가를 추정하는 회귀모델을 위해 설명변수를 선택합니다.
변수 선택과 회귀 모델생성을 위해 sklearn.pipeline() 클래스를 적용합니다.
import numpy as np import pandas as pd from scipy import stats from sklearn import linear_model from sklearn.preprocessing import StandardScaler, MinMaxScaler import statsmodels.api as sm from sklearn.metrics import mean_squared_error from sklearn.model_selection import train_test_split import yfinance as yf from sklearn import feature_selection import matplotlib.pyplot as plt plt.rcParams['font.family'] ='NanumGothic' plt.rcParams['axes.unicode_minus'] =False
st=pd.Timestamp(2023,1, 10) et=pd.Timestamp(2024, 5, 13) code=["^KS11", "^KQ11", "122630.KS", "114800.KS","KRW=X","005930.KS"] nme=["kos","kq","kl", "ki", "WonDol","sam" ] da=pd.DataFrame() for i, j in zip(nme,code): d=yf.download(j,st, et)[["Open","High","Low","Close"]] d.columns=[i+"_"+k for k in ["o","h","l","c"]] da=pd.concat([da, d], axis=1) da=da.ffill() da.columns
Index(['kos_o', 'kos_h', 'kos_l', 'kos_c', 'kq_o', 'kq_h', 'kq_l', 'kq_c', 'kl_o', 'kl_h', 'kl_l', 'kl_c', 'ki_o', 'ki_h', 'ki_l', 'ki_c', 'WonDol_o', 'WonDol_h', 'WonDol_l', 'WonDol_c', 'sam_o', 'sam_h', 'sam_l', 'sam_c'], dtype='object')
ind=da.values[:-1,:-1] de=da.values[1:,-1].reshape(-1,1) final=da.values[-1, :-1].reshape(1,-1) [i.shape for i in [ind, de, final]]
[(362, 23), (362, 1), (1, 23)]
indScaler=StandardScaler().fit(ind) indNor=indScaler.transform(ind) finalNor=indScaler.transform(final) Xtr, Xte, ytr, yte=train_test_split(indNor, de, test_size=0.3, random_state=3) [i.shape for i in [Xtr, Xte]]
[(253, 23), (109, 23)]
위에서 호출한 자료를 표준화하고 훈련(train)세트와 검증(test)세트로 구분하였습니다. 다음으로 변수 선택 단계와 회귀모델 단계를 sklearn.pipeline() 클래스를 적용합니다.
from sklearn.pipeline import Pipeline
mod2=Pipeline([('fs', feature_selection.SequentialFeatureSelector(LinearRegression(), n_features_to_select=5)), ('lr', LinearRegression())]) mod2.fit(Xtr, ytr)
모델 mod2는 두 개의 객체 fs와 lr을 포함합니다. 그러므로 각 객체의 속성과 메서드를 통해 결과를 확인할 수 있으며 그 모델 mod2의 메소드 .score()
와 .predict()
를 사용하여 R2와 예측값을 확인할 수 있습니다.
selectVar=np.where(mod2["fs"].get_support())[0] da.columns[selectVar]
Index(['kos_o', 'kl_h', 'sam_o', 'sam_h', 'sam_l'], dtype='object')
print(mod2['lr'].coef_.round(3)) print(mod2['lr'].intercept_.round(3))
[[ 420.508 -477.318 -4751.936 5998.006 4431.086]] [70419.218]
다음은 R2를 확인하기 위해 모델 내부 객체 lr의 메서드인 .score()
와 모델 자체의 메소드 .score()
를 적용한 것입니다. 모델 내에서 생성된 lr은 다른 객체 fs에서 반환된 결과를 사용한 것이므로 다음과 같이 각각 전달하는 인수값이 달라집니다.
Xtr_new=mod2['fs'].transform(Xtr) Xtr_new.shape
(253, 5)
R2_tr=mod2["lr"].score(Xtr_new, ytr) R2_tr.round(3)
0.969
위 코드는 모델 mod2의 'lr'을 호출하여 사용한 것으로 'fs'의해 변형된 변수를 전달하는 것에 반해 다음 코드와 같이 mod2는 자체내에 'fs'를 실행하므로 변형전의 변수를 전달합니다.
mod2.score(Xtr, ytr).round(3)
0.969
R2_te=mod2.score(Xte, yte) R2_te.round(3)
0.968
예측값을 확인하기 위한 모델의 메서드 .perdict()를 사용합니다. 위 .score()의 적용과 같이 모델 mod2의 내부 요소를 사용하는 것과 그 자체를 사용하는 방법에 따라 전달하는 인수가 달라집니다.
final=mod2["fs"].transform(finalNor) finalNor.shape, final.shape
((1, 23), (1, 5))
pre=mod2["lr"].predict(final) print(pre)
[[73997.74995941]]
mod2.predict(finalNor)
[array([[73997.74995941]])
댓글
댓글 쓰기