기본 콘텐츠로 건너뛰기

라벨이 MLE인 게시물 표시

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

확률적 모델 선택(Probability Model Selection)

내용 모델 선택 확률적 모델 선택(Probability model selection) 최대우도추정(Maximum Likelihood Estimation) AIC BIC 적용 확률적 모델 선택(Probability Model Selection) 모델 선택 다중 변수를 가진 데이터 세트의 경우 변수들의 조합, 또는 모델 타입에 따라 다양한 모델을 선택할 수 있습니다. 구축된 모델들 중에 최상의 모델을 선택하기 위해 각 성능을 추정하여 모델을 선택할 수 있습니다. 모델 선택에 사용할 수 있는 일반적인 접근 방식이 많이 있습니다. 예를 들어 지도 학습의 경우 가장 일반적인 세 가지 접근 방식은 다음과 같습니다. 데이터 세트 훈련, 검증 및 테스트. 리샘플링 방법. 확률 통계. 가장 간단하고 신뢰할 수 있는 모델 선택 방법은 훈련 세트에 후보 모델을 맞추고, 검증 데이터 세트에서 튜닝하고, 정확도 또는 오류와 같은 선택된 메트릭(평가기준) 에 따라 테스트 데이터 세트에서 가장 잘 수행하는 모델을 선택하는 것입니다. 이 접근 방식의 문제점은 많은 데이터가 필요하다는 것입니다. 샘플 수가 작은 데이터 셋의 경우 무작위로 샘플링한 데이터 세트를 사용하여 위의 메커니즘을 실행합니다. 이 방법으로 k-겹 교차검증 을 실시합니다. 이 결과 k개의 모델이 생성되며 그 중 가장 좋은 평균 점수로 선택됩니다. 그러나 이 방법은 데이터를 훈련과 검증 세트 구분하는 방법과 함께 단순히 모델 성능만을 고려합니다. 다시말하면 모델에 적용되는 변수들의 영향 등 모델 복잡도와는 관계가 없습니다. 모델 선택에 대한 세 번째 접근 방식은 모델의 복잡성과 모델의 성능을 점수로 결합한 다음 점수를 최소화하거나 최대화하는 모델을 선택하는 것입니다. 이 스코어링 방법은 확률적 프레임워크를 사용하므로 이 접근 방식을 통계적 또는 확률적 모델 선택이라고 할 수 있습니다. 확률적 모델 선택(Proba