sklearn.pipeline 적용 Pipeline은 여러개의 측정자들(모형 클래스)을 하나로 연결하기 위해 사용할 수 있습니다. 이것은 데이터의 처리 과정 예를 들어 feature selection, normalization and classification 등의 과정을 고정된 연속 단계로 묶어서 처리 할 경우 사용됩니다. 다음은 회귀모델을 설정하기 위해서는 변수들의 표준화, 위에서 소개한 변수 선택 등의 전처리 과정이 포함될 수 있습니다. 이러한 일련의 과정들은 sklearn.pipeline.Pipeline() 클래스를 사용하여 일괄적으로 처리할 수 있습니다. 예 1) 코스피지수(kos), 코스탁지수(kq), kodex 레버리지(kl), kodex 인버스(ki), 그리고 원달러환율(WonDol)의 일일 시가, 고가, 저가, 종가(o,h,p,c)들을 설명변수로 사용하여 삼성전자(sam)의 일일 종가를 추정하는 회귀모델을 위해 설명변수를 선택합니다. 변수 선택과 회귀 모델생성을 위해 sklearn.pipeline() 클래스를 적용합니다. import numpy as np import pandas as pd from scipy import stats from sklearn import linear_model from sklearn.preprocessing import StandardScaler, MinMaxScaler import statsmodels.api as sm from sklearn.metrics import mean_squared_error from sklearn.model_selection import train_test_split import yfinance as yf from sklearn import feature_selection import matplotlib.pyplot as plt plt.rcParams['font.family'] ='NanumGothic' plt.rcParams['a...
python 언어를 적용하여 통계(statistics)와 미적분(Calculus), 선형대수학(Linear Algebra)을 소개합니다. 이 과정에서 빅데이터를 다루기 위해 pytorch를 적용합니다.