기본 콘텐츠로 건너뛰기

라벨이 상관분석인 게시물 표시

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

R 상관성(correlation)과 상관분석

내용 공분산과 상관계수 PEARSON, SPEARMAN 및 KENDALL 상관 관계 부분상관(Partial correlations) 상관 분석 상관성(correlations)과 상관분석 상관 계수는 양적 변수(quantative variables) 간의 관계를 설명하는 데 사용됩니다. ± 기호는 관계의 방향을 나타내고 크기는 관계의 강도를 나타냅니다(관계가 없는 경우 0에서 완벽하게 예측 가능한 관계인 경우 1). 예를 들어 두 변수 x1과 x2에서 x1의 변화에 따라 x2가 변화한다면 두 변수는 서로 상관성이 존재합니다. 이 상관성의 정도를 나타내는 것이 상관계수이며 이는 두 변수의 공분산(covariance)으로부터 계산됩니다. 공분산과 상관계수 공분산은 각 변수의 편차들의 곱에 대한 기대값입니다. $$\begin{equation} \text{Cov}(Y_1, Y_2)=E[(Y_1-\mu_1)(Y_2-\mu_2)] \end{equation}$$ $$\begin{align}&\begin{aligned}\text{Cov}(Y_1, Y_2)&=E[(Y_1-\mu_1)(Y_2-\mu_2)]\\&=E(Y_1Y_2-Y_1\mu_2-\mu_1 Y_2+\mu_1 \mu_2)\\&= E(Y_1Y_2)-E(Y_1)\mu_2-\mu_1E(Y_2)+\mu_1 \mu_2\\&=E(Y_1Y_2)-\mu_1 \mu_2\end{aligned} \\& \because\; E(Y_1)=\mu_1, \quad E(Y_2)=\mu_2\end{align}$$ 두 변수간의 공분산의 절대값의 증가에 따라 선형 의존성은 증가하며 양의 공분산은 정상관계, 음의 값은 역상관계를 의미합니다. 공분산이 0이라면 두 변수 사이의 선형의존성은 없습니다. 그러나 각 변수의 측정척도가 다른 경우 선형성에 대한 즉, 두 변수의 의존성에 대해 공분산을 절대적인 척도로 사용하는 것은 어렵습니다. 결과적으로 공분산만으로 선형성의 정도를

카이제곱 검정과 상관분석

$\chi^2$검정 상관분석 공분산과 상관계수 공분산 상관분석 $\chi^2$검정과 상관분석 $\chi^2$검정 정규분포와 t 분포를 적용하여 귀무가설을 검정한 것과 같이 식 1과 같이 판단을 위한 기준분포가 정규 확률변수를 제곱하여 합한것으로 유도되는 카이제곱 분포일 경우 통계방법을 카이제곱검정($\chi^2$검정) 이라 합니다. 즉, N 개의 서로 독립인 확률변수가 정규분포를 따른다면 각 변수의 제곱의 합은 자유도가 N-1개인 $\chi^2$ 확률변수가 됩니다. 그 각 정규확률변수를 표준화하여 제곱한 변수는 카이제곱 분포를 따릅니다. $$\begin{equation}\tag{1}\sum^N_{i=1}\left(\frac{X_i-\mu}{\sigma} \right)^2=\sum^N_{i=1}\frac{\left(X_i-\mu\right)^2}{\sigma^2}\end{equation}$$ 그러므로 확률변수들이 카이제곱 분포에 부합한다는 것은 서로 독립임을 의미하므로 카이제곱 검정의 귀무가설은 다음과 같습니다. H0: 독립 예를 들어 다음은 코덱스코스피(kKos)와 코덱스반도체(kSemi)의 주가 자료에서 일일 종가와 시가의 차이를 기반으로 상승과 하락을 지정하였습니다. import numpy as np import pandas as pd from scipy import stats import matplotlib.pyplot as plt from scipy import special from sympy import * import FinanceDataReader as fdr st=pd.Timestamp(2021,1,1) et=pd.Timestamp(2022, 1, 12) code=['226490','091160'] nme=['kkos','ksemi'] daOri={} for i, j in zip