기본 콘텐츠로 건너뛰기

[ML] 결정트리(Decision Tree) 모델

[data analysis] sklearn.pipeline 적용

sklearn.pipeline 적용

Pipeline은 여러개의 측정자들(모형 클래스)을 하나로 연결하기 위해 사용할 수 있습니다. 이것은 데이터의 처리 과정 예를 들어 feature selection, normalization and classification 등의 과정을 고정된 연속 단계로 묶어서 처리 할 경우 사용됩니다.

다음은 회귀모델을 설정하기 위해서는 변수들의 표준화, 위에서 소개한 변수 선택 등의 전처리 과정이 포함될 수 있습니다. 이러한 일련의 과정들은 sklearn.pipeline.Pipeline() 클래스를 사용하여 일괄적으로 처리할 수 있습니다.

예 1)

코스피지수(kos), 코스탁지수(kq), kodex 레버리지(kl), kodex 인버스(ki), 그리고 원달러환율(WonDol)의 일일 시가, 고가, 저가, 종가(o,h,p,c)들을 설명변수로 사용하여 삼성전자(sam)의 일일 종가를 추정하는 회귀모델을 위해 설명변수를 선택합니다.

변수 선택과 회귀 모델생성을 위해 sklearn.pipeline() 클래스를 적용합니다.

import numpy as np
import pandas as pd
from scipy import stats
from sklearn import linear_model
from sklearn.preprocessing import StandardScaler, MinMaxScaler
import statsmodels.api as sm
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
import yfinance as yf
from sklearn import feature_selection
import matplotlib.pyplot as plt
plt.rcParams['font.family'] ='NanumGothic'
plt.rcParams['axes.unicode_minus'] =False
st=pd.Timestamp(2023,1, 10)
et=pd.Timestamp(2024, 5, 13)
code=["^KS11", "^KQ11", "122630.KS", "114800.KS","KRW=X","005930.KS"]
nme=["kos","kq","kl", "ki", "WonDol","sam" ]
da=pd.DataFrame()
for i, j in zip(nme,code):
    d=yf.download(j,st, et)[["Open","High","Low","Close"]]
    d.columns=[i+"_"+k for k in ["o","h","l","c"]]
    da=pd.concat([da, d], axis=1)
da=da.ffill()
da.columns
Index(['kos_o', 'kos_h', 'kos_l', 'kos_c', 'kq_o', 'kq_h', 'kq_l', 'kq_c',
       'kl_o', 'kl_h', 'kl_l', 'kl_c', 'ki_o', 'ki_h', 'ki_l', 'ki_c',
       'WonDol_o', 'WonDol_h', 'WonDol_l', 'WonDol_c', 'sam_o', 'sam_h',
       'sam_l', 'sam_c'],
      dtype='object')
ind=da.values[:-1,:-1]
de=da.values[1:,-1].reshape(-1,1)
final=da.values[-1, :-1].reshape(1,-1)
[i.shape for i in [ind, de, final]]
[(362, 23), (362, 1), (1, 23)]
indScaler=StandardScaler().fit(ind)
indNor=indScaler.transform(ind)
finalNor=indScaler.transform(final)
Xtr, Xte, ytr, yte=train_test_split(indNor, de, test_size=0.3, random_state=3)
[i.shape for i in [Xtr, Xte]]
[(253, 23), (109, 23)]

위에서 호출한 자료를 표준화하고 훈련(train)세트와 검증(test)세트로 구분하였습니다. 다음으로 변수 선택 단계와 회귀모델 단계를 sklearn.pipeline() 클래스를 적용합니다.

from sklearn.pipeline import Pipeline
mod2=Pipeline([('fs', feature_selection.SequentialFeatureSelector(LinearRegression(), n_features_to_select=5)),
               ('lr', LinearRegression())])
mod2.fit(Xtr, ytr)

모델 mod2는 두 개의 객체 fslr을 포함합니다. 그러므로 각 객체의 속성과 메서드를 통해 결과를 확인할 수 있으며 그 모델 mod2의 메소드 .score().predict()를 사용하여 R2와 예측값을 확인할 수 있습니다.

selectVar=np.where(mod2["fs"].get_support())[0]
da.columns[selectVar]
Index(['kos_o', 'kl_h', 'sam_o', 'sam_h', 'sam_l'], dtype='object')
print(mod2['lr'].coef_.round(3))
print(mod2['lr'].intercept_.round(3))
[[  420.508  -477.318 -4751.936  5998.006  4431.086]]
[70419.218]

다음은 R2를 확인하기 위해 모델 내부 객체 lr의 메서드인 .score()와 모델 자체의 메소드 .score()를 적용한 것입니다. 모델 내에서 생성된 lr은 다른 객체 fs에서 반환된 결과를 사용한 것이므로 다음과 같이 각각 전달하는 인수값이 달라집니다.

Xtr_new=mod2['fs'].transform(Xtr)
Xtr_new.shape
(253, 5)
R2_tr=mod2["lr"].score(Xtr_new, ytr)
R2_tr.round(3)
0.969

위 코드는 모델 mod2의 'lr'을 호출하여 사용한 것으로 'fs'의해 변형된 변수를 전달하는 것에 반해 다음 코드와 같이 mod2는 자체내에 'fs'를 실행하므로 변형전의 변수를 전달합니다.

mod2.score(Xtr, ytr).round(3)
0.969
R2_te=mod2.score(Xte, yte)
R2_te.round(3)
0.968

예측값을 확인하기 위한 모델의 메서드 .perdict()를 사용합니다. 위 .score()의 적용과 같이 모델 mod2의 내부 요소를 사용하는 것과 그 자체를 사용하는 방법에 따라 전달하는 인수가 달라집니다.

final=mod2["fs"].transform(finalNor)
finalNor.shape, final.shape
((1, 23), (1, 5))
pre=mod2["lr"].predict(final)
print(pre)
[[73997.74995941]]
mod2.predict(finalNor)
[array([[73997.74995941]])

댓글

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

유사변환(Similarity transformation) n×n 차원의 정방 행렬 A, B 그리고 가역 행렬 P 사이에 식 1의 관계가 성립하면 행렬 A와 B는 유사행렬(similarity matrix)이 되며 행렬 A를 가역행렬 P와 B로 분해하는 것을 유사 변환(similarity transformation) 이라고 합니다. $$\tag{1} A = PBP^{-1} \Leftrightarrow P^{-1}AP = B $$ 식 2는 식 1의 양변에 B의 고유값을 고려한 것입니다. \begin{align}\tag{식 2} B - \lambda I &= P^{-1}AP – \lambda P^{-1}P\\ &= P^{-1}(AP – \lambda P)\\ &= P^{-1}(A - \lambda I)P \end{align} 식 2의 행렬식은 식 3과 같이 정리됩니다. \begin{align} &\begin{aligned}\textsf{det}(B - \lambda I ) & = \textsf{det}(P^{-1}(AP – \lambda P))\\ &= \textsf{det}(P^{-1}) \textsf{det}((A – \lambda I)) \textsf{det}(P)\\ &= \textsf{det}(P^{-1}) \textsf{det}(P) \textsf{det}((A – \lambda I))\\ &= \textsf{det}(A – \lambda I)\end{aligned}\\ &\begin{aligned}\because \; \textsf{det}(P^{-1}) \textsf{det}(P) &= \textsf{det}(P^{-1}P)\\ &= \textsf{det}(I)\end{aligned}\end{align} 유사행렬의 특성 유사행렬인 두 정방행렬 A와 B는 'A ~ B' 와 같

[matplotlib] 히스토그램(Histogram)

히스토그램(Histogram) 히스토그램은 확률분포의 그래픽적인 표현이며 막대그래프의 종류입니다. 이 그래프가 확률분포와 관계가 있으므로 통계적 요소를 나타내기 위해 많이 사용됩니다. plt.hist(X, bins=10)함수를 사용합니다. x=np.random.randn(1000) plt.hist(x, 10) plt.show() 위 그래프의 y축은 각 구간에 해당하는 갯수이다. 빈도수 대신 확률밀도를 나타내기 위해서는 위 함수의 매개변수 normed=True로 조정하여 나타낼 수 있다. 또한 매개변수 bins의 인수를 숫자로 전달할 수 있지만 리스트 객체로 지정할 수 있다. 막대그래프의 경우와 마찬가지로 각 막대의 폭은 매개변수 width에 의해 조정된다. y=np.linspace(min(x)-1, max(x)+1, 10) y array([-4.48810153, -3.54351935, -2.59893717, -1.65435499, -0.70977282, 0.23480936, 1.17939154, 2.12397372, 3.0685559 , 4.01313807]) plt.hist(x, y, normed=True) plt.show()

R 미분과 적분

내용 expression 미분 2차 미분 mosaic를 사용한 미분 적분 미분과 적분 R에서의 미분과 적분 함수는 expression()함수에 의해 생성된 표현식을 대상으로 합니다. expression expression(문자, 또는 식) 이 표현식의 평가는 eval() 함수에 의해 실행됩니다. > ex1<-expression(1+0:9) > ex1 expression(1 + 0:9) > eval(ex1) [1] 1 2 3 4 5 6 7 8 9 10 > ex2<-expression(u, 2, u+0:9) > ex2 expression(u, 2, u + 0:9) > ex2[1] expression(u) > ex2[2] expression(2) > ex2[3] expression(u + 0:9) > u<-0.9 > eval(ex2[3]) [1] 0.9 1.9 2.9 3.9 4.9 5.9 6.9 7.9 8.9 9.9 미분 D(표현식, 미분 변수) 함수로 미분을 실행합니다. 이 함수의 표현식은 expression() 함수로 생성된 객체이며 미분 변수는 다음 식의 분모의 변수를 의미합니다. $$\frac{d}{d \text{변수}}\text{표현식}$$ 이 함수는 어떤 함수의 미분의 결과를 표현식으로 반환합니다. > D(expression(2*x^3), "x") 2 * (3 * x^2) > eq<-expression(log(x)) > eq expression(log(x)) > D(eq, "x") 1/x > eq2<-expression(a/(1+b*exp(-d*x))); eq2 expression(a/(1 + b * exp(-d * x))) > D(eq2, "x") a * (b * (exp(-d * x) * d))/(1 + b