기본 콘텐츠로 건너뛰기

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

R 회귀분석

내용 회귀분석과 방법 OLS 회귀 단순회귀 회귀계수의 t-검정 회귀식의 평가 회귀분석(Regression) 회귀분석과 방법 여러 면에서 회귀 분석은 통계의 핵심입니다. 하나 이상의 예측 변수(독립 변수 또는 설명 변수라고도 함)에서 반응 변수(종속 변수, 기준 변수 또는 결과 변수라고도 함)를 예측하는 데 사용되는 방법론 집합에 대한 광범위한 용어입니다. 일반적으로 회귀분석은 반응변수와 관련된 설명변수를 식별하고, 관련된 관계의 형태를 설명하고, 설명변수로부터 반응변수를 예측하기 위한 방정식을 제공하는 데 사용할 수 있습니다. 예를 들어, 운동 생리학자는 회귀 분석을 사용하여 러닝머신에서 운동하는 동안 사람이 태울 예상 칼로리 수를 예측하는 방정식을 개발할 수 있습니다. 반응 변수는 소모된 칼로리 수(소비된 산소량에서 계산)이며 예측 변수에는 운동 시간(분), 목표 심박수에서 보낸 시간 비율, 평균 속도(mph), 나이( 년), 성별 및 체질량 지수(BMI)가 될 수 있습니다. 이론적인 관점에서 분석은 다음과 같은 질문에 답하는 데 도움이 됩니다. 운동 시간과 소모된 칼로리 사이의 관계는 무엇입니까? 선형입니까 곡선입니까? 예를 들어, 운동은 특정 시점 이후에 소모된 칼로리 수에 덜 영향을 줍니까? 노력(목표 심박수에서 시간의 백분율, 평균 보행 속도)은 어떻게 고려됩니까? 이 관계는 젊은이와 노인, 남성과 여성, 무거움과 날씬함의 동일합니까? 실용적인 관점에서 분석은 다음과 같은 질문에 답하는 데 도움이 됩니다. BMI가 28.7인 30세 남성이 평균 속도 4로 45분 동안 걸을 때 소모할 수 있는 칼로리는 얼마입니까? 시간당 마일을 유지하고 목표 심박수를 80% 이내로 유지합니까? 사람이 걸을 때 소모할 칼로리를 정확하게 예측하기 위해 수집해야 하는 최소

R 비모수적 검정(nonparametic test)

내용 Wilcoxon test(두 그룹의 비교) 3 그룹 이상의 비교 비모수적 검정(nonparametic test) t-검정 또는 ANOVA의 정규분포를 따르다는 등의 모수적 가정을 충족할 수 없는 경우 비모수적 접근 방식으로 전환할 수 있습니다. 예를 들어, 결과 변수가 본질적으로 심하게 치우치거나 순서가 있는 경우 Wilcoxon-Tesst과 같은 비모수적 검정 방법을 사용할 수 있습니다. 구분 모수검정(parametic Test) 비모수검정(nonparametic test) 가정 정규분포 (0) 정규분포(x), 집단의 분포를 모름 통계량 평균 (mean) 중앙값 (median) 1 sample 1 sample t-test 1 sample Wilcoxon signed rank test 2 samples 2 sample t-test Wilcoxon rank sum test, Mann-Whitney U-test paired 2-sample t-test Wilcoxon signed rank test more than 2 samples one-way ANOVA Kruskal-Wallis test Wilcoxon test(두 그룹의 비교) Wilcoxon 검정은 모집단의 데이터들이 정규분포를 따른다고 가정할 수 없거나 분포를 알수 없을 경우 중간값(median)의 유의성을 검정하기 위해 실시합니다. 또한 t-test의 짝비교와 같이 두 그룹의 중간값의 차이가 통계적으로 유의한가를 결정하기 위해 사용합니다. 이 비모수분석 방법이므로 t-test에 비해 전제 조건이 작지만 각 데이터의 독립성은 가정됩니다. 중심극한 정리에 의해 Wilcoxon test의 통계량 w는 정규분포에 부합한다고 가정할 수 있습니다. 이 가정은 통계량의 유의성 검정을 가능하게 합니다. 통계량 w는 평균이 0이고 샘플 크기 n을 기준으로 계산하는 분산은 n(n+1)(2n+1) / 6 이므로 귀무가설에서 제시한 중간값을 z s

R t-검정

내용 Independence t-test Dependebt r-test(짝비교) t-tests 두 그룹을 비교하는 연구에서 사용합니다. 범주형 변수의 경우 χ 2 분석이나 상관성 분석으로 진행할 수 있습니다. MASS 패키지와 함께 배포되는 UScrime 데이터 세트를 사용합니다. 여기에는 1960년 미국 47개 주에서 범죄율에 대한 처벌 제도의 영향에 대한 정보가 포함되어 있습니다. 관심 결과 변수는 Prob(수감 가능성), U1(14~24세 도시 남성의 실업률) 및 U2( 35-39세 도시 남성의 실업률). 범주형 변수 So(남부 주에 대한 지표 변수)는 그룹화 변수로 사용됩니다. library(MASS) head(UScrime, 2) M So Ed Po1 Po2 LF M.F Pop NW U1 U2 GDP Ineq Prob Time y 1 151 1 91 58 56 510 950 33 301 108 41 394 261 0.084602 26.2011 791 2 143 0 113 103 95 583 1012 13 102 96 36 557 194 0.029599 25.2999 1635 aggregate(Prob~So, data=UScrime, length) So Prob 1 0 31 2 1 16 Independence t-test 남부에서 범죄를 저지르면 투옥될 가능성이 더 높습니까? 관심 대상의 비교는 변수 So와 Prob입니다. 독립 t-검정은 두 모집단 평균이 같다는 가설을 검정하는 데 사용할 수 있습니다. 여기에서는 두 그룹이 독립적이고 데이터가 정규 모집단에서 추출되었다고 가정합니다. t 검정은 다음의 함수를 적용합니다. t.test(y~x, data) y는 숫자이고 x는 이분형 변수입니다. t.test(y1, y2) y1, y2 모두 숫자형 벡터로서 각 그룹의 결과변수 data는 변수들을 포함하는 matrix 또는 dataframe R의

R 상관성(correlation)과 상관분석

내용 공분산과 상관계수 PEARSON, SPEARMAN 및 KENDALL 상관 관계 부분상관(Partial correlations) 상관 분석 상관성(correlations)과 상관분석 상관 계수는 양적 변수(quantative variables) 간의 관계를 설명하는 데 사용됩니다. ± 기호는 관계의 방향을 나타내고 크기는 관계의 강도를 나타냅니다(관계가 없는 경우 0에서 완벽하게 예측 가능한 관계인 경우 1). 예를 들어 두 변수 x1과 x2에서 x1의 변화에 따라 x2가 변화한다면 두 변수는 서로 상관성이 존재합니다. 이 상관성의 정도를 나타내는 것이 상관계수이며 이는 두 변수의 공분산(covariance)으로부터 계산됩니다. 공분산과 상관계수 공분산은 각 변수의 편차들의 곱에 대한 기대값입니다. $$\begin{equation} \text{Cov}(Y_1, Y_2)=E[(Y_1-\mu_1)(Y_2-\mu_2)] \end{equation}$$ $$\begin{align}&\begin{aligned}\text{Cov}(Y_1, Y_2)&=E[(Y_1-\mu_1)(Y_2-\mu_2)]\\&=E(Y_1Y_2-Y_1\mu_2-\mu_1 Y_2+\mu_1 \mu_2)\\&= E(Y_1Y_2)-E(Y_1)\mu_2-\mu_1E(Y_2)+\mu_1 \mu_2\\&=E(Y_1Y_2)-\mu_1 \mu_2\end{aligned} \\& \because\; E(Y_1)=\mu_1, \quad E(Y_2)=\mu_2\end{align}$$ 두 변수간의 공분산의 절대값의 증가에 따라 선형 의존성은 증가하며 양의 공분산은 정상관계, 음의 값은 역상관계를 의미합니다. 공분산이 0이라면 두 변수 사이의 선형의존성은 없습니다. 그러나 각 변수의 측정척도가 다른 경우 선형성에 대한 즉, 두 변수의 의존성에 대해 공분산을 절대적인 척도로 사용하는 것은 어렵습니다. 결과적으로 공분산만으로 선형성의 정도를

R 독립성 검정과 변수 간의 연관성

내용 독립성 검정(Test of Independence) chi-square 검정 Fisher's exact test Cochran-Mantel-Haenszel 검정 연관성의 측정 파이계수 분할계수(Contigency Coefficiency) Cramer's V 독립성 검정과 변수 간의 연관성 독립성 검정(Test of Independence) 다양한 통계 방법에서의 전제조건이 데이터들의 독립성에 대한 것입니다. R은 범주형 변수의 독립성을 테스트하는 여러 방법을 제공합니다. 세 가지 검정은 카이제곱 독립성 검정, Fisher 정확 검정 및 Cochran-Mantel-Haenszel 검정에 대해 알아봅니다. chi-square 검정 chisq.test() 두 변수(2-way table)에 대해 독립성 검정을 실시 귀무가설: 두 변수는 독립입니다. library(vcd) twoTable<-xtabs(~Treatment+Improved, data=Arthritis) q<-chisq.test(twoTable); q Pearson's Chi-squared test data: twoTable X-squared = 13.055, df = 2, p-value = 0.001463 위 chisq.test() 객체는 다음과 같은 속성을 포함합니다. attributes(q) $names [1] "statistic" "parameter" "p.value" "method" "data.name" "observed" [7] "expected" "residuals" "stdres" $class [1] "htest

R 빈도표와 교차표

내용 one-awy table two-way table 다차원 테이블 빈도표와 교차표 독립성 테스트, 연관 측정 및 결과를 그래픽으로 표시하는 방법과 함께 범주형 변수의 빈도 및 분할표를 살펴보겠습니다. vcd 및 gmodels 패키지의 기능과 함께 기본 설치의 기능을 사용할 것입니다. 다음 예에서 A, B 및 C가 범주형 변수를 나타낸다고 가정합니다. 이 섹션의 데이터는 vcd 패키지에 포함된 관절염 데이터 세트에서 가져옵니다. library(vcd) head(Arthritis) ID Treatment Sex Age Improved 1 57 Treated Male 27 Some 2 46 Treated Male 29 None 3 77 Treated Male 30 None 4 17 Treated Male 32 Marked 5 36 Treated Male 46 Marked 6 23 Treated Male 58 Marked 위 데이터셋의 변수 age를 제외하고 모두 범주형변수(categorical variable)입니다. 각 변수의 수준은 다음과 같습니다. Variable Treatment Sex Impoved level Placebo, Treated Female, Male None, Some, Marked R은 빈도표와 교차표를 작성하는 몇가지 방법을 제공합니다. Function Description table(var1, var2, …, varN) N개의 범주형 변수(요인, factor)에서 N-방향 교차표(분할표)를 생성합니다. xtabs(formula, data) formula과 matrix 또는 data frame을기반으로 N-way 분할표를 만듭니다. prop.table(table, margins) 합에 대한 각 성분의 비율을 나타냅니다. margins=1은 행합, 2는 열합 margin.table(table

R 기술통계

내용 기술통계(descriptive statistics) 그룹화에 의한 기술통계 패키지 함수 적용 기본통계 기술통계(descriptive statistics) mtcars vars<-c('mpg', 'hp', 'wt') mt1<-mtcars[vars] head(mt1) #1~6행을 반환 mpg hp wt Mazda RX4 21.0 110 2.620 Mazda RX4 Wag 21.0 110 2.875 Datsun 710 22.8 93 2.320 Hornet 4 Drive 21.4 110 3.215 Hornet Sportabout 18.7 175 3.440 Valiant 18.1 105 3.460 summary(mt1)#요약통계량을 반환 mpg hp wt Min. :10.40 Min. : 52.0 Min. :1.513 1st Qu.:15.43 1st Qu.: 96.5 1st Qu.:2.581 Median :19.20 Median :123.0 Median :3.325 Mean :20.09 Mean :146.7 Mean :3.217 3rd Qu.:22.80 3rd Qu.:180.0 3rd Qu.:3.610 Max. :33.90 Max. :335.0 Max. :5.424 apply(객체, 1 or 2, FUN)는 객체의 행 또는 열에 함수를 적용합니다. 1: row, 2:column sapply(객체, FUN)는 객체의 각 열에 함수를 적용합니다. 위 함수에서 객체의 결측치를 제외하기 위해 함수에 인자 na.omit=True를 첨가합니다. 위 함수들의 인수중 FUN에 사용되는 전형적인 함수들은 다음과 같