기본 콘텐츠로 건너뛰기

라벨이 mse인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 설명변수 선택의 기준

설명변수 선택의 기준 결정계수와 수정결정계수 잔차평균제곱합(MSE) Mallow’s Cp 통계량 AIC와 BIC 최소자승법(OLS)에 의한 모형의 구축에는 충족되어야 하는 기본 조건들이 있습니다. 그 기본 가정들 중 하나인 설명변수의 독립성은 대부분의 현실 자료에서 충족시키기는 어렵습니다. 일반적으로 회귀모델은 반응변수에 영향을 주는 요인들을 설명변수로 하기 때문에 그들 사이에 어느 정도 상관성이 존재할 것입니다. 그러나 설명변수의 수 증가와 그들 사이의 높은 상관성은 모형 구축에 사용되는 데이터들에 대한 충실도가 증가하여 각 변수의 새로운 값들에 대한 추정의 정확도를 감소시키는 부작용을 발생시킬 수 있습니다. 이러한 현상을 과적합(over fitting) 이라 합니다. 이 문제는 다중 공선성(multicollinearity) 의 핵심적인 결과로서 추정의 신뢰성을 저하시킬 수 있습니다. 그러므로 반응변수 추정에 영향력을 가진 설명변수들을 적절하게 선택하는 것이 모형 생성에 중요한 부분이 됩니다. 결정계수와 수정결정계수 식 1에서 나타낸 것과 같이 결정계수 R 2 는 모형으로 추정된 값들에 내재하는 총 변동에 대한 회귀계수에 의한 변동의 비율을 나타냅니다( 회귀모형의 평가 참조 ). 즉, 회귀계수에 의한 변동이 증가한다면 추정값에 대한 회귀계수의 영향이 증가하는 것으로 모형의 신뢰성이 증가한다는 것을 의미합니다. 그러나 결정계수는 설명변수의 수에 비례하는 경향을 보입니다. 이러한 결정계수의 변화는 모델에 영향력이 큰 변수의 첨가 이후에는 안정한 상태로 유지됩니다. 그 부분이 변수를 선택하는 결정기준이 됩니다. \begin{align}R^2&= \frac{\text{SSReg}}{\text{SST}}\\ & = \frac{\text{SST}-\text{SSE}}{\text{SST}}\\& = 1- \frac{\text{SSE}}{\text{SST}}\\& =1-\frac{\sum^n_{i=1}...

[data analysis] 회귀모형의 평가

회귀모형의 평가 회귀분석은 확률에 기반한 것으로 그 모형에 의한 추정값은 관측값과 차이를 발생시킵니다. 모형의 평가는 그 차이의 수준을 용인할 수 있는지에 대한 평가로서 앞서 소개한 분산분석 을 적용합니다. 분산분석은 여러개의 그룹 (변수)들 사이에 일어나는 각각의 변동(분산)을 비교하여 일반적으로 일어날 수 있는 수준인지를 판단하는 것입니다. 그림 1에 나타낸 것과 같이 관측치 y의 불편추정치(unbiased estimator)로 그 값들의 평균 $\bar{y}$이 사용됩니다. 평균값이 회귀모형에 의한 예측치 $\hat{y}$와 일치한다면 회귀분석의 의미는 없어집니다. 즉, 회귀모델이 적합하다면 평균과 추정치 사이에 차이가 발생하며 추정치와 관측치 사이에 오차가 발생됩니다. 적합한 회귀모형에 의한 반응변수의 평균과 예측값 그리고 관측값(y) 사이의 관계는 식 1과 같이 정의할 수 있습니다. $$(\bar{y}-y)^2=(\bar{y}-\hat{y})^2+(\bar{y}-y)^2+\alpha$$ (식 1) 그림 1. 회귀모델에서의 SST, SSReg, SSE. x=np.linspace(-1, 2, 100) y=x+0.5 plt.figure(figsize=(4,3)) plt.plot(x, y, color="g", label="regression") plt.hlines(1.7, -1, 2, color="k", ls="--", label="mean line") plt.scatter(0.25, 1.7, s=20, color="k", label=r"$\bar{y}$") plt.scatter(0.25, 0.75, s=20, color="r", label=r"$\hat{y}$") plt.scatter(0.25, 0, s=20, color="b", label=r"$y...

[data analysis] 오차제곱평균(Mean of Square Error)

오차제곱평균(Mean of Square Error, MSE) 관련된 내용 회귀모델의 오차에 대해 자기상관분석(Autocorrelation Analysis) 오차의 분산 회귀계수의 추정 에서 언급한 것과 같이 모든 잔차의 합은 0 또는 0에 근접할 것이므로 모형에서 잔차의 정도를 판단하기 위해 잔차 제곱합(식 1)을 사용합니다. \begin{align}\text{SSE}& = \sum^n_{i=1}e^2\\& = \sum^n_{i=1}(y-\hat{y})^2 \\&= \sum^n_{i=1}\left(y-(b_0+b_1x)^2\right)^2\\n, \hat{y}:\;&\text{표본의 크기, 추정치}\end{align} (식 1) 식 2에서 나타낸 것과 같이 잔차제곱합을 자유도로 나눈값이 오차제곱평균 (Mean of Square Error, MSE) 이 됩니다. \begin{align}\text{MSE}&=\frac{\text{SSE}}{\text{df}}\\ &= \frac{\sum^n_{i=1}(y_i-\hat{y_i})^2}{\text{df}}\\ \text{df, n}:&\; \text{자유도, 표본의 크기}\\\hat{y}:&\; \text{추정치}\end{align} (식 2) 식 2의 분모(자유도)는 전체 자료의 수(n)에서 설명변수의 수(p) 그리고 상수항의 수를 뺀 것으로 n - (p + 1)이 됩니다. 모형에 사용되는 설명변수와 반응변수 모두 확률변수이고 중심극한정리에 의해 정규분포를 가정할 수 있습니다. 그러므로 모형에 따라 생성되는 오차 역시 정규분포를 따른다고 가정할 수 있으며 오차의 평균(기대값)은 0이 됩니다. 또한 오차 분포의 분산 추정량으로 MSE를 적용할 수 있으므로 오차분포는 식 3과 같이 나타낼 수 있습니다. e ~ N(0, mse) (식 3) 예 1) kospi 지수의 일일 주가 자료중 시가(Open)을 ...

Autocorrelation & Mean of Square Error

Contents Autocorrelation analysis Mean of Square Error Residual(Error) The generated regression model needs to be statistically tested, and the main object in the test is an error, the difference between the observations and estimates calculated by Equation 1. $$\begin{align}\tag{1}\text{e}&=y-(b_0+b_1x)\\&=y-\hat{y} \end{align}$$ Errors in the regression model have the following prerequisites: Probability variables that follow a normal distribution Because independent variables are probabilities that follow a normal distribution, the error between the response and the estimate is also a probability variable that follows a normal distribution. This means that the error cannot be artificially adjusted. Homoscedastic of error terms Various regression models are possible, as shown in Figure 1. This means that you can configure the probability distribution for the regression coefficients. This distribution has means and variances. The mean of this distrib...