기본 콘텐츠로 건너뛰기

라벨이 Lasso()인 게시물 표시

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

정규화된 회귀모델(Regularized Linear Models): Ridge model

내용 Ridge and Lasso 회귀 Ridge model RidgeCV() 정규화된 회귀모델(Regularized Linear Models) Ridge and Lasso 회귀 과적합을 감소시키기 위해 모델을 정규화(regularization)합니다. 일반적으로 선형모델의 가중치에 제한을 가함으로서 모델을 정규화합니다. 이러한 모델들에는 ridge, lasso 회귀, elestic Net이 있으며 매개변수 λ를 첨가하여 가중치를 정규화 합니다. 이 매개변수를 소멸계수(shrinkage peenalty)라고 합니다. λ=0이면 페널티는 어떤 영향을 주지 못합니다. 그러므로 ridge와 lasso 회귀는 선형회귀와 같은 결과를 반환합니다. 반면에 λ → ∞이면 계수는 0에 근접합니다. $$\begin{align}\tag{1} &\text{RSS}(\beta) = \sum^n_{i=1}\left(y_i - \beta_0 - \sum^p_{j=1}\beta_j x_{ij}\right)^2\\ &\text{Objective Function}_{ridge}=\text{RSS}(\beta)-\lambda\sum^p_{j=1}\beta_j^2\\ &\text{Objective Function}_{lasso}=\text{RSS}(\beta)-\lambda\sum^p_{j=1}\vert\beta_j\vert\end{align}$$ 식 1에서 ridge(릿지)와 lasso(라소) 회귀에서 목적함수(Objective Function) 또는 비용함수(Cost Function)에 적용되는 소멸계수는 선형회귀계수가 작아지면 그 영향은 더욱 축소됩니다. 결과적으로 반응변수에 대한 특성의 영향이 작은 부분은 더 축소되는 결과로 특성선택의 효과를 발생시킵니다. Ridge 회귀는 최소제곱추정치가 높은 분산을 가지는 경우에 잘 작동합니다. 릿지 회귀는 모델이 필요한 최상의 부분 집합 선택에서 계산상의 이점