기본 콘텐츠로 건너뛰기

라벨이 클래스표시행렬인 게시물 표시

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

데이터 인코딩:labeling and one-hot encoding

목차 이진화(Binarization) 데이터 라벨링(Data Labeling) 클래스 표시 행렬 다중클래스 표시행렬 라벨인코딩(Label ecoding) 순서형 인코딩(Ordinal ecoding) 원-핫인코딩(One-Hot Encoding) 이진화(Binarization) 지정한 값을 기준으로 0과 1과 전환합니다. 이러한 전환은 데이터를 확률화로 전환할 경우 유용합니다. sklearn.preprocessing.Binarizer(*, threshold=0.0, copy=True) 클래스를 사용할 수 있습니다. 이 클래스에서 매개변수 threshold에 지정한 값을 기준으로 이하인 경우 0, 초과된 경우 1로 반환합니다. 다음의 경우 50을 임계값으로 지정하여 그 이하를 0 그 이상을 1로 변환한 것입니다. import numpy as np import pandas as pd import sklearn.preprocessing as sklpre np.random.seed(0) x=np.random.randint(0, 100, size=(5,3)) x array([[44, 47, 64], [67, 67, 9], [83, 21, 36], [87, 70, 88], [88, 12, 58]]) xBinary=sklpre.Binarizer(threshold=50).fit(x) xBinary.transform(x) array([[0, 0, 1], [1, 1, 0], [1, 0, 0], [1, 1, 1], [1, 0, 1]]) 데이터 라벨링(Data Labeling) 클래스 표시 행렬 라벨표시기행렬(label indicator matrix)를 작성합니다. label indicator matrix 클래스의 갯수가 정방행렬의 차원이 됨 클래스의 각 요소들은 올림차순으로 정렬 각 클래스는 그 행렬의 행과 열의 인덱스가