기본 콘텐츠로 건너뛰기

라벨이 decribe()인 게시물 표시

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

변수의 종류와 비율

내용 변수의 종류 테이블 구조 기술통계량 찾기 목록변수의 인코딩(encoding) 비율 변수의 종류 측정, 설문, 연구 등에 의해 생성되는 모든 자료들이 변수가 될 수 있으며 기계학습에서 특징 이라는 용어를 사용하기도 합니다. 한 사건은 여러 변수 값들을 포함하고 있으며 인스턴스(instance) 또는 샘플 이라고 합니다. 다음 표는 이름, 나이, 성별, 키(height)라는 3개의 변수와 3개의 사건 즉, 인스턴스들을 포함하고 있습니다. 일반적인 자료의 형식이며 각 변수는 열(column), 인스턴스는 행(row) 으로 구성되며 이러한 자료를 데이터 셋(data set)이라고 합니다. 이름 나이 성별 키 철수 10 남 153 영희 15 여 161 길동 21 남 181 데이터 셋을 구성하는데 있어 질문의 수는 변수의 수와 같으며 응답자의 수는 관측치의 수에 영향을 줍니다. 그러나 응답자의 수가 변수의 수에 영향을 주지 않습니다. 표 1과 같이 모든 변수들은 목록변수 와 양적변수 로 구분하며 또한 변수는 측정 수준에 따라 명목형, 순위형, 이산형, 연속형 로 구분합니다. 표 1. 변수의 종류 변수 내용 측정수준 목록변수(Categorical variables)} 그룹/목록 표시 명목형(Nominal) 순위형(Ordinal) 양적변수(Quantitative variables)} 수량/크기 표시 이산형(Discrete) 연속형(Continuous) 명목형 변수 는 논리적 순서가 없는 질적 분류만이 가능한 변수입니다. 예로서 과일에 대한 데이터 셋의 경우 1=사과, 2=배, 3=수박의 경우 각 과일은 1, 2, 3의 번호로 지정하였지만 과일은 논리적으로 순위나 다른 값들 사이에 관련성이 없습니다. 단지 이름만을 부여할 수 있