기본 콘텐츠로 건너뛰기

7월, 2018의 게시물 표시

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

최소제곱법 개요

최소제곱법 한 시점의 설명변수 벡터(특정변수 벡터, x)에 대한 목적변수(f(x), y) 사이의 다음 모형을 설정합니다.  $$f(x) =w_0+w_1x+x_2x^2+\cdots+w_m x^{m-1} = \sum^M_{m=0}w_mx^M$$ 이 식에 의한 예측값과 실측값 사이의 차의 제곱을 오차라고 합니다. 이 오차값이 작아지고 0에 근접한다면 위 모형이 실측값에 근접한다는 것을 의미하지요.  오차에 대한 지표를 설정하기 위해 오차제곱의 합과 그 값을 반으로 나눈것을 "오차 ED"라고 정의합니다.  $$E=\frac{1}{2}\sum^N_{n=1}(f(x)-y)^2$$ $$E_D=\frac{1}{2}\sum^{N_n=1}(f(x)-y)^2$$ 실제로 오차를 최소하는 조건을 위한 지표로 위 두 식 중 어떤 것을 사용해도 상관없습니다.  위 식에 f(x)를 설정한 모형으로 대체하면 다음과 같이 정리 됩니다. $$E_D=\frac{1}{2}\sum^{N_n=1} (\sum^M_{m=0}w_mx^M-y)^2$$ 위의 E_D 즉, 오차제곱을 최소로 하는 것이 최종목표이며 이러한 기법을 최소제곱법이라 합니다. 위의 E_D를 오차함수라고 합니다.  설명변수가 n개이고 m차 까지로 한다면 행렬로 나타내면 아래와 같이 설명변수 행렬 X의 차원은 n $\times$ m가 됩니다. (아래 행렬의 각 행의 원소들은 $x^0, x^1, \cdots, x^{M+1}$을 가지므로 열의 차원이 m은 M이 아니라 M+1이 됩니다.) $$ X=\left[\begin{array}{rrrr}x_{11}&x_{12}&\cdots&x_{1m}\\x_{21}&x_{22}&\cdots&x_{2m}\\ \vdots&\vdots&\cdots&\vdots\\x_{n1}&x_{n2}&\cdots&x_{nm}\end{array}\right]$$  각 설명변수에