기본 콘텐츠로 건너뛰기

11월, 2022의 게시물 표시

[ML] 결정트리(Decision Tree) 모델

R 등분산성( Homoscedasticity)

Bartlett 검정 Fligner 검정 Leven 검정 등분산성( Homoscedasticity) Bartlett 검정 Bartlett 검정은 집단간 분산에 대해 등분산성을 검정합니다. 이 검정은 두 집단 이상의 자료형식에서도 적용할 수 있으므로 t-검정 또는 일원분산분석에 적용할 자료의 등분산성 가정을 위한 검정에 사용합니다. 이 검정은 정규성에 부합하는 자료에만 적용될 수 있습니다. 검정 통계량은 다음과 같습니다. $$T=\frac{(N-k)\ln(s^2_p)-\sum^k_{i=1}(N_i-1)\ln(s^2_i)}{1+\frac{1}{3(k-1)}\left(\left(\sum^k_{i=1}\frac{1}{N_i-1}\right) - \frac{1}{N-k}\right)}$$ s 2 i : i 레벨(그룹)의 분산 N: 자료의 크기 k: 레벨(집단)dml tn s 2 p : 합동분산(pooled variance) $$s^2_p=\sum^k_{i=1}\frac{N_i-1}{N-k}s^2_i$$ 검정의 가설은 다음과 같습니다. 귀무가설(H0): 집단간 분산이 같다. 대립가설(Ha): 최소한 두 집단간의 분산이 다르다. multcomp 패키지의 데이터 셋 choloesterol을 대상으로 이 검정을 실시 합니다. 이 데이터는 다음과 같이 요인변수인 trt와 연속형 변수인 response로 구성됩니다. 요인은 5개의 수준(그룹)을 포함합니다. 그러므로 각 그룹 대응한 response 값들에 대한 등분산성을 평가합니다. library(tidyverse) library(rstatix) library(multcomp) chol %>% sample_n_by(trt, size=1) # A tibble: 5 × 2 trt response 1 1time 2.71 2 2times 8.60 3 4times 12.4 4 drugD 17.6 5 drugE 21.5

R 그래픽의 개요, plot(), 산점도와 선그래프

내용 개요 plot(): 산점도 제목과 라벨 격자 추가 여러개 산점도 작성 범례(legend) 산점도에 회귀선 추가 요인의 수준에 따른 산점도의 분리 선그래프 그래픽_plot()과 산점도 개요 R에서 그래프를 작성하는 함수는 고수준(high-level)과 저수준(low-level) 함수로 구분합니다. 고수준 함수는 새로운 그래프를 시작하며 축적, 제목과 라벨, 장식 등을 첨가할 수 있습니다. 반면에 저수준 함수는 새로운 그래프를 시작할 수 없으며 고수준 함수에 의해 생성된 그래프에 점, 선, 텍스트, 장식 등을 추가합니다. 고수준 함수 설명 저수준함수 설명 plot 제네릭(generic) 그래프 함수 points 점을 추가 boxplot 박스플롯 생성 lines 선을 추가 hist 히스토그램 생성 abline 직선을 추가 qqnorn Q-Q 플롯을 생성 segments 선분을 추가 curve 함수를 그래프로 작성 polygon 닫힌 다각형을 추가 coplot 조건화그래프 text 텍스트를 추가 barplot 막대그래프 새로운 그래프를 작성하기 위해서는 고수준함수를 호출한 후 저수준 함수를 작성합니다. 고수준 함수인 plot(x)은 전달하는 인자 x에 따라 생성되는 그래프 형상이 달라집니다. 즉, x가 벡터, 요인, 데이터프레임에 따라, 선형회귀 모형, 도수분포표 또는 다른 타입의 형태에 따라 다른 그래프를 생성합니다. 이것은 다형성(polymorphism) 이라고 합니다. 그러므로 제네릭함수인 plot을 다형함수라고 합니다. plot(): 산점도 두 열(column)로 으로 구성된 자료에 대해 plot()함수를 작성합니다. 데이터 cars는 두개의 열로 구성된 데이터 프레임입니다. 이

R 분산분석(ANOVA)의 개요

내용 용어 Fitting ANOVA aov() anova_test() 분산분석의 개요 요인(명목 또는 순서변수)이 설명 변수로 포함될 때 분석의 중심은 예측에서 각 그룹 차이에 대한 결정으로 이동하며 이 경우 사용하는 방법론을 분산 분석(ANOVA) 이라고 합니다. ANOVA 방법론은 다양한 실험 및 준실험 설계를 분석하는 데 사용됩니다. 용어 일반적으로 실험 설계, 특히 분산 분석에는 고유하게 사용되는 용어가 있습니다. 그룹화 변수는 요인(factor) 이라고도 합니다. 요인에 포함된 범주(그룹)를 수준(level) 또는 그룹 이라고 합니다. 수준 수는 요인에 따라 다를 수 있습니다. 요인의 수준 조합을 셀 이라고 합니다.다음 데이터로부터 용어들을 알아봅니다. 자료는 불안을 치료하기 위한 treatment내에 두 가지 수준(CBT, EMDR)이 있는 그룹 또는 레벨(level) 간 요인입니다. 환자가 하나의 그룹에만 할당되기 때문에 그룹 간 요인(between-groups)이라고 합니다. CBT와 EMDR을 모두 받은 환자는 없습니다. 다음 표의 s 문자는 주제(환자)를 나타내며 그 환자로 부터의 값이 반응변수이고 치료의 수준은 독립변수입니다. 각 처리 조건에 동일한 수의 관측치가 있으므로 균형 설계(balanced design) 가 있습니다. 표본 크기가 설계의 셀 전체에서 같지 않으면 불균형 설계(unbalanced design) 가 있는 것입니다. One-way between-groups ANOVA Treatment CBT EMDR s1 s6 s2 s7 s3 s8 s4 s9 s5 s10 위 표의 통계적 설계는 두개의 수준으로 구성된 요인 1개가 존재합니다. 즉, 분류 변수가 1개이므로 일원 분산 분석(one-way ANOVA) 이라고 합니다. 특히, 그룹 간 일원 분산 분석 입니다. ANOVA 설계의 효과는 주로 F 테스트 를 통해 평가됩니다. 치료

R 다항식과 다중 선형회귀

내용 다항식 회귀 다중 선형회귀(Multiple linear regression) 교호작용을 가진 다중선형회귀 추정치의 시각화 회귀모형의 일반적인 사항과 단순회귀모형의 내용이 선행되어야 합니다. 다항식 회귀 독립변수의 차수를 증가시켜 회귀모델을 생성할 수 있습니다. dataset "women" 30~39세의 여성 15명의 신장과 체중에 대한 자료입니다. 이 자료에서 신장을 설명변수로 하여 체중을 예측합니다. head(women, 3) height weight 1 58 115 2 59 117 3 60 120 fit2 <- lm(weight ~ height + I(height^2), data=women) 위 식은 모델 fit에 height의 제곱 항(I(height^2))을 추가한 것입니다. I() 함수는 괄호 안의 수식을 변형없이 실행합니다. summary(fit2) Call: lm(formula = weight ~ height + I(height^2), data = women) Residuals: Min 1Q Median 3Q Max -0.50941 -0.29611 -0.00941 0.28615 0.59706 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 261.87818 25.19677 10.393 2.36e-07 *** height -7.34832 0.77769 -9.449 6.58e-07 *** I(height^2) 0.08306 0.00598 13.891 9.32e-09 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual

R 회귀분석

내용 회귀분석과 방법 OLS 회귀 단순회귀 회귀계수의 t-검정 회귀식의 평가 회귀분석(Regression) 회귀분석과 방법 여러 면에서 회귀 분석은 통계의 핵심입니다. 하나 이상의 예측 변수(독립 변수 또는 설명 변수라고도 함)에서 반응 변수(종속 변수, 기준 변수 또는 결과 변수라고도 함)를 예측하는 데 사용되는 방법론 집합에 대한 광범위한 용어입니다. 일반적으로 회귀분석은 반응변수와 관련된 설명변수를 식별하고, 관련된 관계의 형태를 설명하고, 설명변수로부터 반응변수를 예측하기 위한 방정식을 제공하는 데 사용할 수 있습니다. 예를 들어, 운동 생리학자는 회귀 분석을 사용하여 러닝머신에서 운동하는 동안 사람이 태울 예상 칼로리 수를 예측하는 방정식을 개발할 수 있습니다. 반응 변수는 소모된 칼로리 수(소비된 산소량에서 계산)이며 예측 변수에는 운동 시간(분), 목표 심박수에서 보낸 시간 비율, 평균 속도(mph), 나이( 년), 성별 및 체질량 지수(BMI)가 될 수 있습니다. 이론적인 관점에서 분석은 다음과 같은 질문에 답하는 데 도움이 됩니다. 운동 시간과 소모된 칼로리 사이의 관계는 무엇입니까? 선형입니까 곡선입니까? 예를 들어, 운동은 특정 시점 이후에 소모된 칼로리 수에 덜 영향을 줍니까? 노력(목표 심박수에서 시간의 백분율, 평균 보행 속도)은 어떻게 고려됩니까? 이 관계는 젊은이와 노인, 남성과 여성, 무거움과 날씬함의 동일합니까? 실용적인 관점에서 분석은 다음과 같은 질문에 답하는 데 도움이 됩니다. BMI가 28.7인 30세 남성이 평균 속도 4로 45분 동안 걸을 때 소모할 수 있는 칼로리는 얼마입니까? 시간당 마일을 유지하고 목표 심박수를 80% 이내로 유지합니까? 사람이 걸을 때 소모할 칼로리를 정확하게 예측하기 위해 수집해야 하는 최소