기본 콘텐츠로 건너뛰기

라벨이 회귀계수인 게시물 표시

[matplotlib]quiver()함수

[data analysis] 오차의 분산

오차의 분산 관련된 내용 회귀모델의 오차에 대해 자기상관분석(Autocorrelation Analysis) 오차의 분산 각 샘플의 추정치 또는 오차의 분포는 회귀계수에만 의존하므로 모든 샘플들에서 발생하는 분포의 분산은 동일하다고 가정합니다( 표 1 참조 ). 그러나 다중회귀모델의 경우 여러 설명변수들 사이에 상관성(공분산의 존재)등으로 인해 이 가정을 만족시키지 못하는 경우가 대부분입니다. 공분산의 존재는 등분산 가정을 충족시키지 못하는 것으로 OLS에서 일반적으로 사용되는 통계적 추론 절차에 문제를 일으킵니다. 즉, 샘플링 분산을 추정하고 가설을 테스트하는 표준 방법이 편향된다는 것입니다. 그 결과 OLS에 의해 추정되는 회귀계수의 편향으로 예측의 신뢰가 감소될 수 있습니다. 등분산 가정이 충족되지 않는 경우 다음과 같이 방법으로 이 문제를 감소시킬 수 있습니다. 데이터 변환(예: 반응 변수 및/또는 설명 변수의 로그 취함)으로 일정한 분산을 달성 다중 설명변수들 중에 주요한 변수만을 선택 설명변수들 간에 정규화 회귀분석의 등분산성 가정을 수식으로 표현하면 식 1과 같습니다. \begin{align}\text{Var}(e|X)& = E(ee^T)\\& = \sigma_e^2 \cdot I \end{align} (식 1) 식 1에서 I는 항등행렬을 나타내는 것으로 σ e 2 I는 각 샘플에서 발생하는 오차의 분산이 같다는 것을 의미합니다(식 2). $$\sigma_e^2 \cdot I = \sigma_e^2\begin{bmatrix}1&0&\cdots&0\\0&1&\cdots&0\\ \vdots& \vdots& \ddots& \vdots\\ 0&0&\cdots&1\end{bmatrix}$$ (식 2) 회귀모형을 행렬시스템으로 나타내면 식 3와 같습니다. \begin{align}y&=X\b...

[data analysis] 회귀계수의 평가

회귀계수의 평가 다음은 일정기간의 kospi의 Open과 Close에 대한 자료이고 각각을 설명변수와 반응변수로 지정하여 회귀모델을 구축한 것입니다. st=pd.Timestamp(2021,1, 1) et=pd.Timestamp(2024, 5, 10) kos=fdr.DataReader('KS11',st, et)[["Open","Close"]] kos.index=range(len(kos)) kos.head(3).round(2) X=kos.values[:,0].reshape(-1,1) y=kos.values[:,1].reshape(-1,1) from sklearn.preprocessing import StandardScaler #독립변수 정규화(표준화) xScaler=StandardScaler().fit(X) X_n=xScaler.transform(X) #반응변수 정규화(표준화) yScaler=StandardScaler().fit(y) y_n=yScaler.transform(y) from statsmodels.api import add_constant, OLS X_n0=add_constant(X_n) reg=OLS(y_n, X_n0).fit() print(f'회귀계수(b0, b1) :{np.around(reg.params,3)}\nR2:{np.around(reg.rsquared,3)}') 회귀계수(b0, b1) :[0. 0.997] R2:0.994 위에서 생성된 회귀모델 reg의 메서드 summary()는 모델의 결과를 요약한 3개의 표들 을 반환합니다. 다음 코드는결과 중 두 번째 표를 나타낸 것으로 t 검정 결과를 나타내고 있습니다. 이것은 생성된 모델의 회귀계수에 대해 다음 귀무가설(H0)을 검정합니다. H0: 계수에 의해 유의한 차이를 보이지 않음 re=reg.summary() re.tables[1] coef std err t ...

[data analysis] 회귀계수의 추정: 최소제곱법(Least Square method)

최소자승법(Least Square method) 식 1의 형태인 회귀선(회귀방정식)은 설명변수에 대응하는 반응변수의 관계를 설명하기 위해 통계적으로 추정된 방정식입니다. 이 모형으로부터의 예측값 역시 통계적으로 추정된 값으로 실제로 관측된 값과는 차이가 존재합니다. 그러므로 추정값과 관측값과의 차이를 평가하여 모형의 적합성 여부를 결정할 필요가 있습니다. y = β 0 + β 1 x + ε (식 1) x: 설명변수 y: 반응변수 β 0 : 편차 β 1 : 회귀계수(가중치) ε : 오차 모형의 구성요소인 편차 β 0 와 회귀계수 β 1 은 모집단의 회귀모형에 대한 것으로 미지의 값(unknown value)인 모수이므로 표본의 통계량으로부터 추정되어야 합니다. 이를 구분하기 위해 표본집단의 편차와 회귀계수를 각각 b 0 와 b 1 로 나타내며 모수를 추정하기 위한 불편추정치(unbiased estimator) 로 사용합니다. 이 추정치들 중 관측치와 실측치의 차이인 오차(error, e) 또는 잔차(residual) 는 식 2와 같이 계산됩니다. \begin{align} e & = y − (b_0+ b_1x)\\ &=y − \hat{y}\\& e: \text{오차 또는 잔차}\\ &\hat{y}: \text{추정치}\end{align} (식 2) 자료에서 발생하는 각 샘플의 오차는 음수와 양수 모두 가능하므로 그들의 합은 0에 근접하기 때문에 회귀모형의 적합성을 위한 판단근거로 사용할 수 없습니다. 대신에 각 오차의 절대값이나 제곱값들의 합을 사용합니다. 절대값을 사용하는 경우는 1차 식이되며 제곱을 적용한 경우는 2차 식이 됩니다. 회귀모형을 나타내는 회귀선(기울기와 편차)은 다양하게 나타낼 수 있습니다( 회귀분석의 정의와 가정의 그림 2 참조 ). 오차는 회귀식과 설명변수에 반응하는 결과로서 궁극적으로 최소의 오차를 생성하는 회귀식이 최적의 모형이 됩니다. b 0 와 b 1 을 미지수로 하...