기본 콘텐츠로 건너뛰기

라벨이 states인 게시물 표시

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

이산확률분포: 확률질량함수와 누적분포함수

내용 확률질량함수(PMF) 누적분포함수(Cumulative Distribution Function, CDF) 이산확률분포 확률분포는 샘플공간의 각 지점 또는 각 구간의 확률을 기준으로 작성됩니다. 이러한 확률은 함수로 작성될 수 있으며 그 확률의 대상이 되는 사건(확률변수)이 이산변수일 경우 확률질량함수(Probability Mass Function, PMF) , 연속변수일 경우 확률밀도함수(Probability Density Function, PDF) 이라고 합니다. 두 경우 모두 일정한 변수구간에서의 각 확률의 합은 확률누적분포 함수(Cumulative Distribution Function, CDF) 라고 합니다. 이 함수의 결과와 확률변수 값에 대해 시각적으로 나타낸 것을 확률분포 라고 합니다. 확률분포는 각 확률변수와 함수의 값을 대응시킨 것으로 시각적으로 나타낼 수 있습니다. 이러한 분포의 형태는 특정한 함수로 구현되는 분포들을 따르는 경향을 보입니다. 그러므로 데이터들의 분석에서 적합한 확률분포를 가정하여 여러 통계 방법들을 적용할 수 있습니다. 이러한 점 때문에 분포의 특성들을 이해하는 것은 데이터들에 대한 통계분석의 기반을 제공한다고 할 수 있습니다. 확률질량함수(PMF), 누적분포함수(CDF)를 정리하는 것이 분포를 이해하는데 큰 도움이 됩니다. 확률밀도함수(PDF)는 연속변수를 소개할 때 다시 정리합니다. 확률질량함수(PMF) 확률변수 X의 범위 $R_x$가 셀수 있는 집합이라면 그 집합 즉 샘플공간(sample space, S)을 다음과 같이 나타낼 수 있습니다. S={x 1 , x 2 , x 3 , …} 확률변수는 변수에 값을 대응시키는 함수 이기도 합니다. 즉, S의 등은 각 확률변수에 대응하는 사건들 입니다. 각 사건에 대응하는 확률을 산출할 수 있는 함수가 확률질량함수가 됩니다. 관심의 대상이 되는 사건(event) A는 다음과 같이 나타냅니다. $$\text{A}=\{\text{s} \in