기본 콘텐츠로 건너뛰기

라벨이 pd.qcut()인 게시물 표시

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

pivot_table과 crosstab

내용 pivot_table() 교차표 pivot_table과 crosstab 코스피 지수의 일일 'Open',"high','Low', 'Close', 'Volum', 'Change' 자료를 예로 사용합니다. pivot_table() 피벗 테이블을 만드는 데 사용할 수 있는 함수입니다. pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', …) data: DataFrame 개체 values: 집계할 열 또는 열 목록 index 열, Grouper, 데이터와 길이가 같은 배열 또는 목록 피벗 테이블 인덱스에서 그룹화 기준으로 사용할 키 배열이 전달되면 열 값과 동일한 방식으로 사용 columns 열, Grouper, 데이터와 길이가 같은 배열 또는 목록 피벗 테이블 열에서 그룹화 기준으로 사용할 키 배열이 전달되면 열 값과 동일한 방식으로 사용 aggfunc: 집계에 사용할 함수, 기본값은 numpy.mean import numpy as np import pandas as pd import FinanceDataReader as fdr st=pd.Timestamp(2021,8, 26) et=pd.Timestamp(2022, 5, 18) da=fdr.DataReader('KS11', st, et) 호출한 데이터는 연속형이므로 명목형으로 전환합니다. pd.qcut() 함수를 사용합니다. colNme=da.columns[:-1] CaRef=pd.DataFrame() data=pd.DataFrame() for i in colNme: re=pd.qcut(da[i], q=

pandas.groupby()에 의한 데이터 그룹화

내용 df.groupby() get_group() groupby().method() aggregate(), agg() filter() pandas.groupby()에 의한 데이터 그룹화 df.groupby() 데이터프레임의 구조의 데이터의 하나의 열을 그룹화할 경우 각 그룹에 대한 함수를 적용할 수 있습니다. 예로 다음은 "Open", "High", "Low", "Close"의 변수로 구성된 kospi 일일 지수 데이터입니다. 이 데이터는 연속형(continuous)으로 이를 목록화 한 것입니다. import numpy as np import pandas as pd import matplotlib.pyplot as plt import FinanceDataReader as fdr colNme=["Open", "High", "Low", "Close"] st=pd.Timestamp(2022,4, 1) et=pd.Timestamp(2022, 5, 16) da=fdr.DataReader('KS11', st, et)[colNme] da.head(3) Open High Low Close Date 2022-04-01 2745.85 2745.85 2729.68 2739.85 2022-04-04 2729.86 2758.38 2722.45 2757.90 2022-04-05 2765