기본 콘텐츠로 건너뛰기

라벨이 특성선택인 게시물 표시

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

특성 선택(Feature selection)

내용 분산에 의한 선택 일변량 선택(Univariate Selection) 재귀적 특징 제거(Recursive Feature Elimination, RFE) Information value 특성 선택(Feature selection) 특성 선택(feature selection) 특성선택은 추정에 기여하는 정도의 순서로 변수들을 자동으로 선택하는 과정입니다. 특성이 적을수록 회귀분석과 기계 학습 알고리즘을 더 효율적으로(공간 또는 시간 복잡성 감소) 더 효과적으로 실행할 수 있습니다. 일부 모델이나 기계 학습 알고리즘은 관련 없는 입력 기능으로 인해 오도되어 예측 성능이 저하될 수 있습니다. 특성선택의 다음의 장점들에 의해 모델을 개선할 것입니다. 과적합 감소: 중복 데이터가 적다는 것은 노이즈를 기반으로 결정을 내릴 기회가 적다는 것을 의미합니다. 그러므로 모델의 일반화 가능성을 개선할 수 있습니다. 정확도 향상: 영향이 적은 데이터의 감소로 추정결과와 실제값 사이의 오차범위의 감소가 일어날 수 있으며 이러한 결과는 모델링 정확도의 향상을 가져옵니다. 훈련 시간 감소: 데이터가 적을수록 알고리즘이 더 빠르게 훈련됩니다. 다음 데이터는 코스피 지수의 일 전 시가(Open), 고가(High), 저가(Low), 종가(Close)와 각 자료의 3일과 5일 이동평균치를 특성으로 하고 당일의 종가를 반응변수로 합니다. 이동 평균 데이터를 생성하기 위해 다음의 사용자정의함수 maDataMake()를 작성하여 적용하였습니다. import numpy as np import numpy.linalg as la import pandas as pd import matplotlib.pyplot as plt from sklearn.preprocessing import StandardScaler from sklearn import metrics from sklearn.linear_