1. 데이터 준비
설명변수와 반응변수 사이의 상관성을 토대로 설명변수에 의한 반응변수의 추정를 위한 모형을 구축하는 분석방법 선형 모형 구축을 위해 python에서는 일반적으로 satasmodels와 sklearn 패키지를 사용된다.이 포스팅에서는 sklearn패키지를 사용한다. 또한 kospi일일 주가자료를 가지고 모형을 구축해 본다. 우선 google finance에서 kospi일일자료를 호출해 보자.
패키지 numpy와 pandas는 자료 조작에 매우 유용하다. 그러므로 모형구축을 위해 사용되는 패키지들을 장착하자.
import numpy as np
import pandas as pd
from datetime import datetime
from pandas_datareader import data, wb #웹에서 데이터 호출
import pandas_datareader.data as web
import matplotlib.pyplot as plt #그래프 작성을 위해 필요
#%matplotlib inline
from sklearn.linear_model import LinearRegression
startD=datetime(2010, 3, 1)
endD=datetime(2017, 3, 31)
k=web.DataReader("KRX:kospi", "google", startD, endD)
k.head(3)
Open High Low Close VolumeDate 2010-03-02 1612.43 1620.15 1608.97 1615.12 4146370002010-03-03 1615.25 1622.63 1611.35 1622.44 4030920002010-03-04 1625.35 1631.10 1612.47 1618.20 382598000
[ 1.61243000e+03 1.62015000e+03 1.60897000e+03 4.14637000e+08
1.62244000e+03]
위 데이터에서 Close를 반응변수로 하고 설명변수와 반응변수의 시차를 1일로 할 것이다. 이러한 데이터를 생성하기 위해 다음의 정의함수를 작성하여 사용한다.
def indDeS(da, deColN, diffDay):
n=len(da)
indN=np.delete(range(len(da.columns)), deColN)
da1=pd.DataFrame(da.ix[:(n-1), indN])
y=da.ix[:, deColN].shift(-diffDay)
da1['de']=y
targD=da.ix[-1, indN]
return([da1, targD])
[ 1.61243000e+03 1.62015000e+03 1.60897000e+03 4.14637000e+08 1.62244000e+03]print(trgD1[0])
2166.62
데이터의 회귀모형은 과적합의 위험성을 내포한다. 즉, 분석범위내에서 적합도가 그 범위외의 추정에서 저하되는 신뢰성을 보이는 문제를 가지는 경우가 많다. 또한 기계학습에서는 학습된 모형을 학습과정에서 사용하지 않은 부분에서의 검정 과정을 거친다. 그러므로 사용할 데이터를 두 부분 즉, 훈련(train) 데이터와 검정(test) 데이터로 구분하여 훈련데이터에서 학습된 모형을 검정 데이터에서 검정하는 과정을 갖는다.
데이터의 분리는 두가지 방법으로 가능하다.
우선 위에서 생성된 데이터를 numpy 구조로 전환하고 train과 test 그룹으로 분리하자.
이러한 분리를 위해 divideTrainS() 함수를 작성하여 사용하였다.
우선 위에서 생성된 데이터를 numpy 구조로 전환하고 train과 test 그룹으로 분리하자.
이러한 분리를 위해 divideTrainS() 함수를 작성하여 사용하였다.
da1=np.array(da)
def divideTrainS(obj, size, rep):x=np.random.choice(obj, size, rep)
y=np.delete(range(obj), x)
return([x, y])
trN, teN=divideTrainS(len(da), int(len(da)*0.7), False)
print(len(trN))
1225
다음은 sklearn 패키지에서 제공하는 함수를 사용할 수 있다. 이 함수는 다음과 같이 사용할 수 있다.slearn.model_selectioin. train_test_split(객체(들),test_size, random_state)를 사용한다. 이 메소드는 객체들을 일정한 비율(test_size)로 분리한다. 인수 중 random_state는 분리된 데이터를 분석 중에 동일하게 사용하기 위해 설정하는 것으로 np.random.seed()와 동일한 기능을 한다.
from sklearn.model_selection import train_test_splittrain, test=train_test_split(da, test_size=0.25, random_state=3)print(train[0])[ 1.91801000e+03 1.91811000e+03 1.90595000e+03 2.76751000e+08 1.92520000e+03]print(test[0])[ 2.17136000e+03 2.17934000e+03 2.16334000e+03 3.58673000e+08 2.15566000e+03]2. 단순선형회귀sklearn LinearRegression에서는 설명변수과 반응변수 데이터 구조에서 각각의 행과 행이 대응하여 모형을 구축한다. 그러므로 설명변수가 1개 일 경우에는 각 값에 반응변수가 대응하는 방식이므로 모든 변수가 행렬구조를 가져야 한다. 다음과 같이 자료 구조를 전환시켜 주어야 한다.
tr_ind=[[i] for i in train[:,1]] tr_de=[[i] for i in train[:,4]]
위의 변환은 다음과 같이 좀더 용이하게 사용할 수 있다.tr_ind=train[:,:1].reshape([len(train], 1])
tr_nd=train[:,4].reshape([len[train], 1])메소드 fit()는 모형의 매개변수를 학습하기 위해 이용되고 predict() 메소드는 학습된 매개변수를 이용하여 어떤 설명변수에 대응되는 반응변수의 값을 예측하기 위해 사용된다. 다음을 보자.sklearn.linear_model.LinearRegression 클래스는 estimator(예측자)이고 예측자들은 관찰치 데이터를 기준으로 어떤 값을 예측한다. 그러므로 이 클래스의 실행단계는 다음과 같다.먼저 회귀모형구축을 위한 클래스 객체를 생성한다. 이하의 모든 분석은 그 클래스 객체내에서 이루어진다. 다음으로 그 클래스 객체내에 모형을 구축한다. 즉,클래스객체 = LinearRegression()
모형 생성: 클래스객체.fit(설명변수, 반응변수)sm=LinearRegression() sm.fit(tr_ind, tr_de)
생성된 모형의 요약 결과는 다음과 같이 나타낼 수 있다.
{"intercept":sm.intercept_, "coeff":sm.coef_, "R^2":sm.score(tr_ind, tr_de), "SSR":sm.residues_}{'R^2': 0.96530444109139357, 'SSR': array([ 548720.93197107]), 'coeff': array([[ 0.99252275]]), 'intercept': array([ 5.48123774])}위의 결과는 빈번히 사용되므로 다음과 같이 함수를 작성하는 것이 편리하다.def LinearRegSummaryS(model, ind, de): re={} re["intercept"]=model.intercept_ re["coef"]=model.coef_ re["R^2"]=model.score(ind, de) re["SSR"]=model.residues_ re["MSR"]=re["SSR"]/(len(ind)-(np.shape(ind)[1]+1)) return(re)
from numpy.linalg import invprint(LinearRegSummaryS(sm, tr_ind, tr_de))
{'intercept': array([ 5.48123774]), 'coef': array([[ 0.99252275]]), 'R^2': 0.96530444109139357, 'SSR': array([ 548720.93197107]), 'MSR': array([417.27827526])}회귀모형은 추정치와 관측치간의 차이를 최소로 하도록 구축하는 것이 궁극적인 목적이 된다. 이 추정치와 관찰치 간의 차이는 잔차제곱합(Sum of Squared Residual, SSR)에 의해 그 정도를 파악할 수 있다. 이 지표를 비용함수(cost function)라고 한다.비용함수(cost function, loss function)는 모형의 오차를 정의하고 측정하기 위해 사용된다.즉, 모형에서 예측된 값들과 관찰값들 사이의 차이는 잔차를 의미한다.
회귀식은 기본 구조는 다음과 같고 이 식으로 부터 추정되는 $$\hat y$$는$$\hat y =f(x)=\alpha+\beta x$$$$SSR=\sum^n_{i=1} (y_i -f(x_i))^2$$SSR은 잔차(res)행렬을 적용하여 다음과 같이 구할 수 있다.$$res=y_i -f(x_i)$$$$SSR= {res}^T {res}$$위 식의 $${res}^T$$은 잔차 행렬이다.이식을 사용하여 SSR을 계산해 보면 다음과 같다.ssr=np.sum((tr_de-sm.predict(tr_ind))**2)
ssr
548720.93197107362위에서 생성한 모형을 검정데이터에 적용해 보자.
te_ind=[[i] for i in test[:,1]] te_de=[[i] for i in test[:,4]] spre=sm.predict(te_ind) te_ssr=np.sum((spre-te_de)**2) te_msr=te_ssr/(len(te_ind)-1) te_msr
362.53369073964353계산한 검정데이터에서의 msr 즉, SSR을 자유도로 나눈 값은 훈련데이터에서 계산한 값의 약 87%이다. 이 값은 구축된 모형의 과적합성에 대한 문제를 피할 수 있다고 할 수 있다.새로운 값을 추정하기 위해서도 predict() 함수를 사용할 수 있다.
sm.predict(2161)
array([[ 2150.32289118]])
모형 설정시 절편(intercept)을 사용하지 않기 위해서는
LinearRegression(fit_interception=False)와 같이 실행한다.
매개변수 fit_interceptioin의 디폴트 값은 True이므로 위와 같은 어떤 매개변수값을 전달하지 않으면 절편을 고려하여 모형을 구축한다.3. 중선형회귀
위의 단순선형회귀의 경우는 설명변수와 반응변수는 각각 1개이지만 반응변수와 상관성있는 변수의 수는 증가할 수 있다. 이 경우를 중선형회귀라 한다.위에서 생성한 데이터에서 생성된 train(훈련)데이터에서 설명변수를 객체 tr의 0, 1, 2 열, 반응변수를 4열로 하여 선형회귀모형을 구축하여 보자.이 결과로 유도되는 식은 다음과 같다. $$\beta = (X^T X)^{-1}X^TY$$ $$X^T$$는 설명변수의 전치행렬을 나타낸다. 이 식을 사용하여 회귀계수를 계산해 보자. 중선형회귀의 경우는 numpy array 구조의 설명변수를 재구조화 할 필요가 없다. 그러므로 설명변수와 반응변수는 다음과 같이 생성된다. tr_ind=train[:,:3] tr_de=[[i] for i in train[:,4]] [len(tr_ind), len(tr_de)] [1316, 1316] 위 식에 의해 회귀계수를 계산하기 위해서는 설명변수에 주의를 주어야 한다. 절편을 가진 모형을 구축하기 위해서는 설명변수에 1을 원소로 갖는 열이 존재해야 한다. 다음코드에서 np.repaet() 함수를 사용하여 절편항을 위한 설명변수를 원래 설명변수 행렬에 추가하였다. 또한 계산을 위해서는 역행렬을 계산해야 하는데 이 계산을 위해 numpy의 아래와 같은 클래스를 임포트 하였다.
$$\hat Y= \alpha +\beta_1 x_1 + \beta_2 x_2+...+\beta_n x_n = \beta X$$
위 식에서 X, Y는 설명변수와 반응변수 형렬, $$\beta$$는 회귀계수 행렬을 나타낸다.
중선형회귀역시 최소자승법에 의해 회귀계수들을 계산할 수 있는데 추정치와 관측치간의 차이
즉, 다음의 식을 최소로 하기 위해서는 미분한 값을 0으로 한 상태에서 회귀계수를 유도 할 수 있다.
$$e=hat y - y $$
x1=np.repeat(1, len(tr_ind)) x=np.c_[x1, tr_ind] x[0]
array([ 1.00000000e+00, 1.91801000e+03, 1.91811000e+03, 1.90595000e+03])xinv=inv(np.transpose(x).dot(x)) xty=np.transpose(x).dot(tr_de) beta=xinv.dot(xty) beta
array([[ 26.86069344], [ -0.59046998], [ 0.81741423], [ 0.75970826]])위의 계산은 numpy의 lstsq에 의해 직접적으로 계산할 수 있다. 이 함수는 각 회귀게수와 설명변수의 독립성 여부를 보여주는 인덱스로 간주할 수 있는 rank와 각 계수의 분산의 불편추정치로 사용할 수 있는 SSR을 함께 반환한다.lstsq(x, tr_de)
(array([[ 26.86069343], [ -0.59046998], [ 0.81741423], [ 0.75970826]]), array([ 466787.1782138]), 4, array([ 1.23166443e+05, 3.06113965e+02, 2.14304476e+02, 1.93496045e+00]))이 값들은 위의 단순선형회귀 모형에서 사용한 LinearRegression() 클래스를 사용한 모형과 동일한 값을 나타낸다.multm=LinearRegression() multm.fit(tr_ind, tr_de)
print(LinearRegSummaryS(multm, tr_ind, tr_de))
{'intercept': array([ 26.86069343]), 'coef': array([[-0.59046998, 0.81741423, 0.75970826]]), 'R^2': 0.97048510254324882, 'SSR': array([ 466787.1782138]), 'MSR': array([ 355.78291022])}
plt.plot(tr_ind[:,0], tr_de, 'o',label="Observed", markersize=5) plt.plot(tr_ind[:,0],np.dot(x, lstsq(x, tr_de)[0]), 'r', label='Fitted') plt.legend() plt.show()
검정데이터에 적용하여 mse를 계산해 보면 다음과 같다.spre=multm.predict(te_ind) te_ssr=np.sum((spre-te_de)**2) te_msr=te_ssr/(len(te_ind)-(np.shape(te_ind)[1]+1)) te_msr
321.03184954071679
이 값은 훈련데이터로 부터의 mse의 약 90% 수준이다.
te_msr/LinearRegSummaryS(multm, tr_ind, tr_de)["MSR"]*100
array([ 90.23250986])
새로운 설명변수에 대한 반응변수의 추정치는 다음과 같이 산출된다.
trgD1[:3]
array([ 2166.62, 2166.93, 2159.8 ])
multm.predict(trgD1[:3])
array([[ 2159.63394948]])
댓글
댓글 쓰기