기본 콘텐츠로 건너뛰기

라벨이 Autocorrelation인 게시물 표시

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

회귀모델의 평가: 오차(Error, Residual), 회귀계수의 평가, 추정

내용 오차의 전제조건 오차의 등분산성 자기상관분석 오차제곱평균 회귀계수의 평가 모형의 평가 결정계수(coefficient of determinant) 추정 오차(Error, Residual) 오차의 전제조건 생성된 회귀모형을 통계적으로 검정(test)할 필요가 있으며 검정의 주요한 객체는 식 1에 의해 계산되는 관찰치와 추정치의 차이인 오차(error)가 됩니다. $$\begin{align}\tag{1}e&=y-(b-o+b_1x)\\&=y-\hat{y} \end{align}$$ 회귀모형의 오차는 다음의 전제조건을 가정합니다. 정규분포를 따르는 확률변수 독립변수들은 정규 분포를 따르는 확률변수이므로 그 반응변수와 추정치 사이에서 발생되는 오차 역시 정규분포를 따르는 확률 변수가 됩니다. 이것은 오차를 인위적으로 조정할 수 없다는 의미입니다. 오차항의 등분산성(homoscedastic) 시점이 다른 오차들 사이에 자기상관 (autocorrelation)을 가지지 않습니다. 이것은 오차들 간의 체계적인 관계가 없다는 것을 의미합니다. 그러나 현실 데이터 특히 시계열의 경우 각 데이터들 사이에 관계성을 가지기 때문에 이 가정이 부합하기는 쉽지 않습니다. 독립변수를 다양하게 적용하거나 lasso등의 방법을 사용하여 이 관계성을 감소시킬 수 있습니다. 오차의 등분산성 회귀모델은 다양한 형태로 구축할 수 있습니다. 예를 들어 그림 1과 같이 100개의 샘플을 가진 자료로부터 최소자승법에 의한 회귀모델을 중심으로 다른 모델들을 추가하여 5개의 회귀선을 임의로 작성하는 경우를 고려해봅니다. 한개의 데이터에 대해 다양한 회귀선들로부터 여러개의 추정치가 생성됩니다. 실측된 값과 추정치들간의 오차들 또한 확률분포를 구성할 수 있으므로 평균과 분산을 계산할 수 있습니다. 등분산성은 각 데이터로부터 계산되는 분산이 다른 데이터로부터 계산되는 값들과 같다는 것을 의미

자기상관분석(Autocorrelation Analysis)

자기상관분석 상관성(correlation) 은 두 변수간의 관계를 나타내는 것에 반해 자기상관(autocorrelation) 은 한 변수내에 시간 차이에 따른 값들 사이의 관계를 파악하는 것입니다. 다시말하면 행렬의 형태로 표현되는 자료에서 행들의 값들 사이의 관계가 상관성이라면 자기상관성은 하나의 열 내에 존재하는 값들 사이의 관계를 나타내는 것이라 할 수 있습니다. 자기상관의 정도는 자기상관 계수($R_h$)로 나타냅니다. $$\begin{align}\tag{1}R_h& =\frac{ \text{Autocovariance}}{\text{Variance}}\\ &=\frac{\sum^{N-h}_{t=1} (x_t-\bar{x})(x_{t+h}-\bar{x})}{\sum^N_{i=1}(x_t-\bar{x})^2}\end{align}$$ 식 1의 자기상관계수는 statsmodels.tsa.stattool의 acf(x, nlags) 함수를 사용합니다. 이 함수의 인자 중 nlags는 x t 와 x t+h 의 차이인 h의 연속값의 수입니다. 이 값을 별도로 지정하지 않은 경우 (10 * np.log10(nobs), nobs - 1)중 최소값이 자동으로 지정됩니다. 예  다음은 코스피 주가 자료 중 종가(Close)의 lag=1에 대한 자기상관계수를 계산해 봅니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import FinanceDataReader as fdr st=pd.Timestamp(2020,1,3) et=pd.Timestamp(2022, 1, 14) ks=fdr.DataReader('KS11', st, et)["Close"] ks.tail(3) Date 2022-01-12 2972.48 2022-01-13 2962.09 2022-01-14 2921.92 Name: Close, dtype: f

Autocorrelation & Mean of Square Error

Contents Autocorrelation analysis Mean of Square Error Residual(Error) The generated regression model needs to be statistically tested, and the main object in the test is an error, the difference between the observations and estimates calculated by Equation 1. $$\begin{align}\tag{1}\text{e}&=y-(b_0+b_1x)\\&=y-\hat{y} \end{align}$$ Errors in the regression model have the following prerequisites: Probability variables that follow a normal distribution Because independent variables are probabilities that follow a normal distribution, the error between the response and the estimate is also a probability variable that follows a normal distribution. This means that the error cannot be artificially adjusted. Homoscedastic of error terms Various regression models are possible, as shown in Figure 1. This means that you can configure the probability distribution for the regression coefficients. This distribution has means and variances. The mean of this distrib