기본 콘텐츠로 건너뛰기

통계관련 함수와 메서드 사전

A B C d E F G H I K L M N O P Q R S T U V W Z A statsmodels.ap.stats.anova_lm(x) statsmodels.formula.api.ols 에 의해 생성되는 모형 즉, 클래스 인스턴스(x)를 인수로 받아 anova를 실행합니다. np.argsort(x, axis=-1, kind=None) 객체 x를 정렬할 경우 각 값에 대응하는 인덱스를 반환합니다. Axis는 기준 축을 지정하기 위한 매개변수로서 정렬의 방향을 조정할 수 있음(-1은 기본값으로 마지막 축) pandas.Series.autocorr(lag=1) lag에 전달한 지연수에 따른 값들 사이의 자기상관을 계산 B scipy.stats.bernoulli(x, p) 베르누이분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 p: 단일 시행에서의 확률 scipy.stats.binom(x, n, p) 이항분포에 관련된 통계량을 계산하기 위한 클래스를 생성합니다. x: 랜덤변수 n: 총 시행횟수 p: 단일 시행에서의 확률 C scipy.stats.chi2.pdf(x, df, loc=0, scale=1) 카이제곱분포의 확률밀도함수를 계산 $$f(x, k) =\frac{1}{2^{\frac{k}{2}−1}Γ(\frac{k}{2})}x^{k−1}\exp\left(−\frac{x^2}{2}\right)$$ x: 확률변수 df: 자유도 pd.concat(objs, axis=0, join=’outer’, …) 두 개이상의 객체를 결합한 새로운 객체를 반환. objs: Series, DataFrame 객체. Axis=0은 행단위 즉, 열 방향으로 결합, Axis=1은 열단위 즉, 행 방향으

R 비모수적 검정(nonparametic test)

내용 Wilcoxon test(두 그룹의 비교) 3 그룹 이상의 비교 비모수적 검정(nonparametic test) t-검정 또는 ANOVA의 정규분포를 따르다는 등의 모수적 가정을 충족할 수 없는 경우 비모수적 접근 방식으로 전환할 수 있습니다. 예를 들어, 결과 변수가 본질적으로 심하게 치우치거나 순서가 있는 경우 Wilcoxon-Tesst과 같은 비모수적 검정 방법을 사용할 수 있습니다. 구분 모수검정(parametic Test) 비모수검정(nonparametic test) 가정 정규분포 (0) 정규분포(x), 집단의 분포를 모름 통계량 평균 (mean) 중앙값 (median) 1 sample 1 sample t-test 1 sample Wilcoxon signed rank test 2 samples 2 sample t-test Wilcoxon rank sum test, Mann-Whitney U-test paired 2-sample t-test Wilcoxon signed rank test more than 2 samples one-way ANOVA Kruskal-Wallis test Wilcoxon test(두 그룹의 비교) Wilcoxon 검정은 모집단의 데이터들이 정규분포를 따른다고 가정할 수 없거나 분포를 알수 없을 경우 중간값(median)의 유의성을 검정하기 위해 실시합니다. 또한 t-test의 짝비교와 같이 두 그룹의 중간값의 차이가 통계적으로 유의한가를 결정하기 위해 사용합니다. 이 비모수분석 방법이므로 t-test에 비해 전제 조건이 작지만 각 데이터의 독립성은 가정됩니다. 중심극한 정리에 의해 Wilcoxon test의 통계량 w는 정규분포에 부합한다고 가정할 수 있습니다. 이 가정은 통계량의 유의성 검정을 가능하게 합니다. 통계량 w는 평균이 0이고 샘플 크기 n을 기준으로 계산하는 분산은 n(n+1)(2n+1) / 6 이므로 귀무가설에서 제시한 중간값을 z s

R t-검정

내용 Independence t-test Dependebt r-test(짝비교) t-tests 두 그룹을 비교하는 연구에서 사용합니다. 범주형 변수의 경우 χ 2 분석이나 상관성 분석으로 진행할 수 있습니다. MASS 패키지와 함께 배포되는 UScrime 데이터 세트를 사용합니다. 여기에는 1960년 미국 47개 주에서 범죄율에 대한 처벌 제도의 영향에 대한 정보가 포함되어 있습니다. 관심 결과 변수는 Prob(수감 가능성), U1(14~24세 도시 남성의 실업률) 및 U2( 35-39세 도시 남성의 실업률). 범주형 변수 So(남부 주에 대한 지표 변수)는 그룹화 변수로 사용됩니다. library(MASS) head(UScrime, 2) M So Ed Po1 Po2 LF M.F Pop NW U1 U2 GDP Ineq Prob Time y 1 151 1 91 58 56 510 950 33 301 108 41 394 261 0.084602 26.2011 791 2 143 0 113 103 95 583 1012 13 102 96 36 557 194 0.029599 25.2999 1635 aggregate(Prob~So, data=UScrime, length) So Prob 1 0 31 2 1 16 Independence t-test 남부에서 범죄를 저지르면 투옥될 가능성이 더 높습니까? 관심 대상의 비교는 변수 So와 Prob입니다. 독립 t-검정은 두 모집단 평균이 같다는 가설을 검정하는 데 사용할 수 있습니다. 여기에서는 두 그룹이 독립적이고 데이터가 정규 모집단에서 추출되었다고 가정합니다. t 검정은 다음의 함수를 적용합니다. t.test(y~x, data) y는 숫자이고 x는 이분형 변수입니다. t.test(y1, y2) y1, y2 모두 숫자형 벡터로서 각 그룹의 결과변수 data는 변수들을 포함하는 matrix 또는 dataframe R의

R 상관성(correlation)과 상관분석

내용 공분산과 상관계수 PEARSON, SPEARMAN 및 KENDALL 상관 관계 부분상관(Partial correlations) 상관 분석 상관성(correlations)과 상관분석 상관 계수는 양적 변수(quantative variables) 간의 관계를 설명하는 데 사용됩니다. ± 기호는 관계의 방향을 나타내고 크기는 관계의 강도를 나타냅니다(관계가 없는 경우 0에서 완벽하게 예측 가능한 관계인 경우 1). 예를 들어 두 변수 x1과 x2에서 x1의 변화에 따라 x2가 변화한다면 두 변수는 서로 상관성이 존재합니다. 이 상관성의 정도를 나타내는 것이 상관계수이며 이는 두 변수의 공분산(covariance)으로부터 계산됩니다. 공분산과 상관계수 공분산은 각 변수의 편차들의 곱에 대한 기대값입니다. $$\begin{equation} \text{Cov}(Y_1, Y_2)=E[(Y_1-\mu_1)(Y_2-\mu_2)] \end{equation}$$ $$\begin{align}&\begin{aligned}\text{Cov}(Y_1, Y_2)&=E[(Y_1-\mu_1)(Y_2-\mu_2)]\\&=E(Y_1Y_2-Y_1\mu_2-\mu_1 Y_2+\mu_1 \mu_2)\\&= E(Y_1Y_2)-E(Y_1)\mu_2-\mu_1E(Y_2)+\mu_1 \mu_2\\&=E(Y_1Y_2)-\mu_1 \mu_2\end{aligned} \\& \because\; E(Y_1)=\mu_1, \quad E(Y_2)=\mu_2\end{align}$$ 두 변수간의 공분산의 절대값의 증가에 따라 선형 의존성은 증가하며 양의 공분산은 정상관계, 음의 값은 역상관계를 의미합니다. 공분산이 0이라면 두 변수 사이의 선형의존성은 없습니다. 그러나 각 변수의 측정척도가 다른 경우 선형성에 대한 즉, 두 변수의 의존성에 대해 공분산을 절대적인 척도로 사용하는 것은 어렵습니다. 결과적으로 공분산만으로 선형성의 정도를

R 독립성 검정과 변수 간의 연관성

내용 독립성 검정(Test of Independence) chi-square 검정 Fisher's exact test Cochran-Mantel-Haenszel 검정 연관성의 측정 파이계수 분할계수(Contigency Coefficiency) Cramer's V 독립성 검정과 변수 간의 연관성 독립성 검정(Test of Independence) 다양한 통계 방법에서의 전제조건이 데이터들의 독립성에 대한 것입니다. R은 범주형 변수의 독립성을 테스트하는 여러 방법을 제공합니다. 세 가지 검정은 카이제곱 독립성 검정, Fisher 정확 검정 및 Cochran-Mantel-Haenszel 검정에 대해 알아봅니다. chi-square 검정 chisq.test() 두 변수(2-way table)에 대해 독립성 검정을 실시 귀무가설: 두 변수는 독립입니다. library(vcd) twoTable<-xtabs(~Treatment+Improved, data=Arthritis) q<-chisq.test(twoTable); q Pearson's Chi-squared test data: twoTable X-squared = 13.055, df = 2, p-value = 0.001463 위 chisq.test() 객체는 다음과 같은 속성을 포함합니다. attributes(q) $names [1] "statistic" "parameter" "p.value" "method" "data.name" "observed" [7] "expected" "residuals" "stdres" $class [1] "htest

R 빈도표와 교차표

내용 one-awy table two-way table 다차원 테이블 빈도표와 교차표 독립성 테스트, 연관 측정 및 결과를 그래픽으로 표시하는 방법과 함께 범주형 변수의 빈도 및 분할표를 살펴보겠습니다. vcd 및 gmodels 패키지의 기능과 함께 기본 설치의 기능을 사용할 것입니다. 다음 예에서 A, B 및 C가 범주형 변수를 나타낸다고 가정합니다. 이 섹션의 데이터는 vcd 패키지에 포함된 관절염 데이터 세트에서 가져옵니다. library(vcd) head(Arthritis) ID Treatment Sex Age Improved 1 57 Treated Male 27 Some 2 46 Treated Male 29 None 3 77 Treated Male 30 None 4 17 Treated Male 32 Marked 5 36 Treated Male 46 Marked 6 23 Treated Male 58 Marked 위 데이터셋의 변수 age를 제외하고 모두 범주형변수(categorical variable)입니다. 각 변수의 수준은 다음과 같습니다. Variable Treatment Sex Impoved level Placebo, Treated Female, Male None, Some, Marked R은 빈도표와 교차표를 작성하는 몇가지 방법을 제공합니다. Function Description table(var1, var2, …, varN) N개의 범주형 변수(요인, factor)에서 N-방향 교차표(분할표)를 생성합니다. xtabs(formula, data) formula과 matrix 또는 data frame을기반으로 N-way 분할표를 만듭니다. prop.table(table, margins) 합에 대한 각 성분의 비율을 나타냅니다. margins=1은 행합, 2는 열합 margin.table(table

R 기술통계

내용 기술통계(descriptive statistics) 그룹화에 의한 기술통계 패키지 함수 적용 기본통계 기술통계(descriptive statistics) mtcars vars<-c('mpg', 'hp', 'wt') mt1<-mtcars[vars] head(mt1) #1~6행을 반환 mpg hp wt Mazda RX4 21.0 110 2.620 Mazda RX4 Wag 21.0 110 2.875 Datsun 710 22.8 93 2.320 Hornet 4 Drive 21.4 110 3.215 Hornet Sportabout 18.7 175 3.440 Valiant 18.1 105 3.460 summary(mt1)#요약통계량을 반환 mpg hp wt Min. :10.40 Min. : 52.0 Min. :1.513 1st Qu.:15.43 1st Qu.: 96.5 1st Qu.:2.581 Median :19.20 Median :123.0 Median :3.325 Mean :20.09 Mean :146.7 Mean :3.217 3rd Qu.:22.80 3rd Qu.:180.0 3rd Qu.:3.610 Max. :33.90 Max. :335.0 Max. :5.424 apply(객체, 1 or 2, FUN)는 객체의 행 또는 열에 함수를 적용합니다. 1: row, 2:column sapply(객체, FUN)는 객체의 각 열에 함수를 적용합니다. 위 함수에서 객체의 결측치를 제외하기 위해 함수에 인자 na.omit=True를 첨가합니다. 위 함수들의 인수중 FUN에 사용되는 전형적인 함수들은 다음과 같

R 데이터의 집계 및 재구성

내용 전치(transpose) 데이터의 집계 reshape 패키지 melting casting 데이터의 집계 및 재구성(aggregation and restructuring) R은 데이터를 집계하고 재구성하기 위한 여러 가지 강력한 방법을 제공합니다. 데이터를 집계할 때 관찰 그룹을 해당 관찰을 기반으로 하는 요약 통계로 바꿉니다. 데이터를 재구성할 때 데이터가 구성되는 방식을 결정하는 구조(행 및 열)를 변경합니다. 이 섹션에서는 이러한 작업을 수행하는 다양한 방법에 대해 설명합니다. 다음 두 하위 섹션에서는 R의 기본 설치에 포함된 mtcars 데이터 프레임을 사용할 것입니다. Motor Trend Magazine(1974)에서 추출한 이 데이터 세트는 설계 및 성능 특성(실린더 수, 배기량, 마력, mpg 등) 34대용. 데이터세트에 대한 자세한 내용은 help(mtcars)를 참조하세요. 전치(transpose) 전치는 데이터의 구조 즉, 행과 열을 교환하는 것입니다. 함수 t() 를 사용합니다. cars<-mtcars[1:5, 1:4] cars mpg cyl disp hp Mazda RX4 21.0 6 160 110 Mazda RX4 Wag 21.0 6 160 110 Datsun 710 22.8 4 108 93 Hornet 4 Drive 21.4 6 258 110 Hornet Sportabout 18.7 8 360 175 t(cars) MazdaRX4 Mazda RX4 Wag Datsun 710 Hornet 4 Drive Hornet Sportabout mpg 21 21 22.8 21.4 18.7 cyl