[time series] 정상성(stationary) 검정

정상성(stationary) 검정

정상성 판단을 위한 일반적인 지침:
- ACF가 천천히 감소하거나 오랜 기간 유의미한 값을 가지면 비정상적일 가능성이 높습니다. 특히 선형적인 감소는 추세를, 주기적인 스파이크는 계절성을 나타낼 수 있습니다.
- PACF에서 몇 개의 초기 시차에서만 유의미한 스파이크가 나타나고 이후 급격히 감소하면 정상적일 가능성이 높습니다.

import numpy as np
import pandas as pd
import yfinance as yf
import matplotlib.pyplot as plt

from statsmodels.tsa.stattools import acf, pacf
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

st=pd.Timestamp(2024,1, 1)
et=pd.Timestamp(2025, 4,25)
trgnme="000660.KS"
trg=yf.download(trgnme,  st, et)
trg.columns=[i[0] for i in trg.columns]
close=trg["Close"]

다음은 데이터의 ACF와 PACF를 작성하기 위한 UDF입니다.

#ACF, PACF  작성 함수
def acf_pacf_plot(data, lag=10):
  f, axes=plt.subplots(1,2, figsize=(10, 3), sharey=True)
  plt.subplots_adjust(wspace=0.1)
  plot_acf(data, lags=lag, ax=axes[0])
  plot_pacf(data, lags=lag, ax=axes[1])
  plt.show()

#ACF, PACF
fig, axes=plt.subplots(1, 2, figsize=(10, 3), sharey=True)
plt.subplots_adjust(wspace=0.1)
plot_acf(close, lags=30, ax=axes[0])
axes[0].grid(True)
plot_pacf(close, lags=30, ax=axes[1])
axes[1].grid(True)
plt.show()

위 결과는 ACF는 비정상, PACF는 정상임을 나타냄. 이러한 경우에 가능한 시나리오는 다음과 같습니다.

강한 추세가 존재하는 경우
- ACF: 매우 천천히 감소 또는 오랜기간 동안 높은 값을 유지로 먼 lag에서 강한 상관성을 갖기 때문
- PACF: 추세 영향이 제거되면 비교적 빠르게 0으로 감소하는 정상성을 보일 수 있음.
계절성이 존재하는 경우
AR(p) 모델에서 높은 p에서 정상성을 보일 수 있음

주의사항

ACF 및 PACF 플롯은 시각적인 판단 도구이므로, 명확하지 않은 경우에는 ADF(Augmented Dickey-Fuller) 검정과 같은 통계적 정상성 검정을 함께 사용하는 것이 좋습니다.
데이터의 크기가 작거나 복잡한 패턴을 가질 경우 ACF 및 PACF 플롯 해석이 어려울 수 있습니다.

정상성 검정 (Stationarity Test)

시계열 분석 모델 (특히 ARIMA 계열)은 데이터가 정상성을 만족하는 것을 가정하는 경우가 많습니다. 정상성이란 시계열의 통계적 특성 (평균, 분산 등)이 시간에 따라 변하지 않는 성질을 의미합니다.
statsmodels 라이브러리의 adfuller 함수 (Augmented Dickey-Fuller test) 등의 통계적 검정을 사용하여 시계열 데이터의 정상성을 확인합니다.
비정상 시계열 데이터의 경우, 차분(Differencing) 등의 방법을 통해 정상성을 확보해야 합니다.

ADF 검정(Augmented Dickey-Fuller Test): 단위근(Unit root)의 존재여부에 대한 검정으로 단위근이 존재하면 비정상(non-stationary)일 가능성이 높음.

귀무가설: "단위근이 존재한다" 즉, 비정상이다.
대립가설: "단위근이 존재하지 않는다" 즉, 정상이다.

ADF 검정의 주요결과

ADF 통계량
임계값(Critical values): 유의수준(일반적으로 1%, 5%, 10%)에서의 귀무가설의 기각 여부의 기준값
p-값:
- p < 0.05 : 기각, 정상성(ADF 통계량이 임계값보다 작은 경우)
- p>= 0.05: 기각할 수 없음, 비정상

KPSS 검정 (Kwiatkowski-Phillips-Schmidt-Shin Test)

KPSS 검정은 ADF 검정과 반대로 귀무 가설이 "시계열은 정상적이다"인 검정입니다. 따라서ADF 검정과 상호 보완적으로 사용될 수 있습니다.

AD검정: statsmodels.tsa.stattools.adfuller()
KPSS 검정: .kpss()함수를 사용합니다.

이 함수들의 매개변수 autolag='AIC'는 시계열 분석에서 최적의 지연(lag) 길이를 자동으로 선택하는 방법을 의미합니다. 특히 ADF(단위근) 테스트에서 사용되며, Akaike Information Criterion(AIC)을 최소화하는 방식으로 최적의 지연 길이를 결정합니다. 즉, autolag='AIC'를 설정하면 여러 개의 지연 길이를 테스트한 후, AIC 값이 가장 낮은 지연 길이를 선택합니다. 이를 통해 불필요한 지연을 제거하고, 모델의 적합성을 최적화할 수 있습니다. 비슷한 방식으로 autolag='BIC'를 설정하면 Bayesian Information Criterion(BIC)을 기준으로 최적의 지연 길이를 선택합니다.

다음결과에 의하면 귀무가설을 기각할 수 없습니다. 즉, 단위근이 존재하므로 비정상입니다.

result=adfuller(close, autolag="AIC")
print(f'ADF Statistic: {result[0]}')
print(f'p-value: {result[1]}')
print(f'임계값: {result[4]}')

ADF Statistic: -2.447642027313806
p-value: 0.12873862241362005
임계값: {'1%': -3.4510167751522642, '5%': -2.87064334231426, '10%': -2.5716201744283174}

비정상 시계열인 경우 데이터에 추세, 계절성 또는 특정 차수의 AR 성분이 존재할 가능성이 높습니다. 데이터에 추세, 계절성 또는 특정 차수의 AR 성분이 존재할 가능성이 높습니다. 이러한 경우 차분으로 정상시계열로 전환될 수 있습니다. 특히 추세를 가진 데이터의 경우 차분은 매우 효과가 높습니다.

다음은 2차 차분을 적용한 경우 입니다.

close_dif=close.diff().diff().dropna()
close_dif.isnull().sum()

fig, axes=plt.subplots(1, 2, figsize=(10, 3), sharey=True)
plt.subplots_adjust(wspace=0.1)
plot_acf(close_dif, lags=30, ax=axes[0])
axes[0].grid(True)
plot_pacf(close_dif, lags=30, ax=axes[1])
axes[1].grid(True)
plt.show()

result_dif=adfuller(close_dif, autolag="AIC")
print(f'ADF Statistic: {result_dif[0]}')
print(f'p-value: {result_dif[1]}')
print(f'임계값: {result_dif[4]}')

ADF Statistic: -6.959443869660086
p-value: 9.245595177301791e-10
임계값: {'1%': -3.4523371197407404, '5%': -2.871222860740741, '10%': -2.571929211111111}

ACF가 비정상이고 PACF가 정상적인 패턴을 나타내는 경우, 차분과 같은 정상화 기법을 적용하거나, PACF의 패턴을 기반으로 AR 모델을 고려하고, 필요에 따라 계절성 분석을 수행하는 것이 적절한 대응 방법이 될 수 있습니다.

[Linear Algebra] 유사변환(Similarity transformation)

유사변환(Similarity transformation) n×n 차원의 정방 행렬 A, B 그리고 가역 행렬 P 사이에 식 1의 관계가 성립하면 행렬 A와 B는 유사행렬(similarity matrix)이 되며 행렬 A를 가역행렬 P와 B로 분해하는 것을 유사 변환(similarity transformation) 이라고 합니다. $$\tag{1} A = PBP^{-1} \Leftrightarrow P^{-1}AP = B $$ 식 2는 식 1의 양변에 B의 고유값을 고려한 것입니다. \begin{align}\tag{식 2} B - \lambda I &= P^{-1}AP – \lambda P^{-1}P\\ &= P^{-1}(AP – \lambda P)\\ &= P^{-1}(A - \lambda I)P \end{align} 식 2의 행렬식은 식 3과 같이 정리됩니다. \begin{align} &\begin{aligned}\textsf{det}(B - \lambda I ) & = \textsf{det}(P^{-1}(AP – \lambda P))\\ &= \textsf{det}(P^{-1}) \textsf{det}((A – \lambda I)) \textsf{det}(P)\\ &= \textsf{det}(P^{-1}) \textsf{det}(P) \textsf{det}((A – \lambda I))\\ &= \textsf{det}(A – \lambda I)\end{aligned}\\ &\begin{aligned}\because \; \textsf{det}(P^{-1}) \textsf{det}(P) &= \textsf{det}(P^{-1}P)\\ &= \textsf{det}(I)\end{aligned}\end{align} 유사행렬의 특성 유사행렬인 두 정방행렬 A와 B는 'A ~ B' 와 같...

유리함수 그래프와 점근선 그리기

내용 유리함수(Rational Function) 점근선(asymptote) 유리함수 그래프와 점근선 그리기 유리함수(Rational Function) 유리함수는 분수형태의 함수를 의미합니다. 예를들어 다음 함수는 분수형태의 유리함수입니다. $$f(x)=\frac{x^{2} - 1}{x^{2} + x - 6}$$ 분수의 경우 분모가 0인 경우 정의할 수 없습니다. 이와 마찬가지로 유리함수 f(x)의 정의역은 분모가 0이 아닌 부분이어야 합니다. 그러므로 위함수의 정의역은 분모가 0인 부분을 제외한 부분들로 구성됩니다. sympt=solve(denom(f), a); asympt [-3, 2] $$-\infty \lt x \lt -3, \quad -3 \lt x \lt 2, \quad 2 \lt x \lt \infty$$ 이 정의역을 고려해 그래프를 작성을 위한 사용자 정의함수는 다음과 같습니다. def validX(x, f, symbol): ① a=[] b=[] for i in x: try: b.append(float(f.subs(symbol, i))) a.append(i) except: pass return(a, b) #x는 임의로 지정한 정의역으로 불연속선점을 기준으로 구분된 몇개의 구간으로 전달할 수 있습니다. #그러므로 인수 x는 2차원이어야 합니다. def RationalPlot(x, f, sym, dp=100): fig, ax=plt.subplots(dpi=dp) # ② for k in x: #③ x4, y4=validX(k, f, sym) ax.plot(x4, y4) ax.spines['left'].set_position(('data', 0)) ax.spines['right...

부분분수의 미분

내용 방법 1 방법 2 방법 3 부분분수의 미분 분수의 미분은 일정한 공식 을 적용하여 계산할 수 있습니다. 그러나 분수 자체가 단순한 표현으로 이루어지지 않았다면 미분 과정이나 결과는 매우 복잡할 수 있습니다. 만약 복잡한 분수 함수를 간단한 분수들로 분해할 수 있다면 계산이 보다 간편해질 것입니다. 이와 같이 분해된 간단한 분수들을 부분분수 라고 합니다. 예를 들어 다음 두 분수의 합을 계산해 봅니다. $$\begin{align} \frac{1}{x+1}+\frac{2}{x-1}&=\frac{x-1+2(x+1)}{(x+1)(x-1)}\\ &=\frac{3x+1}{x^2-1} \end{align}$$ 위 과정은 3개 이상의 여러 분수에서도 이루어질 수 있습니다. 또한 역으로 진행될 수 있습니다. 즉, 분수를 부분 분수로 분할할 수 있습니다. 그러나 이러한 과정은 대수분수 (분자의 가장 큰 차수가 분모의 최고의 차수보다 작은 분수)에서만 이루어질 수 있습니다. 예를 들어 $\displaystyle \frac {x^2+2}{x^2-1}$의 경우는 분자와 분모의 차수는 2차로 같습니다. 이러한 경우 다음과 같이 분리할 수 있습니다. $$\frac{x^2+2}{x^2-1}=1+\frac{3}{x^2-1}$$ 위의 식 중 $\displaystyle \frac{3}{x^2-1}$은 분자의 차수가 분모의 차수 보다 낮은 대수 분수이므로 부분 분수로 분리할 수 있습니다. 이와같이 부분 분수로 분해하는 방법은 다음과 같이 몇 가지로 구분할 수 있습니다. 방법 1 위 예의 결과 $\displaystyle \frac{3x+1}{x^2-1}$의 경우를 역으로 생각해 봅니다. 분모의 인수분해가 가능하면 그 분모의 인수에 의해 다음과 같이 분해할 수 있습니다. $$\begin{align} \frac{3x+1}{x^2-1}&=\frac{3x+1}{(x+1)(x-1)}\\ &=\frac{A}{x+1...

sons dataStory

이 블로그 검색

pandas_ta를 적용한 통계적 인덱스 지표