R 분산분석(ANOVA)의 개요

내용

용어
Fitting ANOVA
- aov()
- anova_test()

분산분석의 개요

요인(명목 또는 순서변수)이 설명 변수로 포함될 때 분석의 중심은 예측에서 각 그룹 차이에 대한 결정으로 이동하며 이 경우 사용하는 방법론을 분산 분석(ANOVA)이라고 합니다. ANOVA 방법론은 다양한 실험 및 준실험 설계를 분석하는 데 사용됩니다.

용어

일반적으로 실험 설계, 특히 분산 분석에는 고유하게 사용되는 용어가 있습니다. 그룹화 변수는 요인(factor)이라고도 합니다. 요인에 포함된 범주(그룹)를 수준(level) 또는 그룹이라고 합니다. 수준 수는 요인에 따라 다를 수 있습니다. 요인의 수준 조합을 셀이라고 합니다.다음 데이터로부터 용어들을 알아봅니다.

자료는 불안을 치료하기 위한 treatment내에 두 가지 수준(CBT, EMDR)이 있는 그룹 또는 레벨(level) 간 요인입니다. 환자가 하나의 그룹에만 할당되기 때문에 그룹 간 요인(between-groups)이라고 합니다. CBT와 EMDR을 모두 받은 환자는 없습니다. 다음 표의 s 문자는 주제(환자)를 나타내며 그 환자로 부터의 값이 반응변수이고 치료의 수준은 독립변수입니다. 각 처리 조건에 동일한 수의 관측치가 있으므로 균형 설계(balanced design)가 있습니다. 표본 크기가 설계의 셀 전체에서 같지 않으면 불균형 설계(unbalanced design)가 있는 것입니다.

One-way between-groups ANOVA
Treatment
CBT	EMDR
s1	s6
s2	s7
s3	s8
s4	s9
s5	s10

위 표의 통계적 설계는 두개의 수준으로 구성된 요인 1개가 존재합니다. 즉, 분류 변수가 1개이므로 일원 분산 분석(one-way ANOVA)이라고 합니다. 특히, 그룹 간 일원 분산 분석입니다. ANOVA 설계의 효과는 주로 F 테스트를 통해 평가됩니다. 치료에 대한 F 검정이 유의한 경우 두 치료법에 대한 평균이 치료 5주 후에 다르다는 결론을 내릴 수 있습니다. 시간 경과에 따른 불안에 대한 CBT의 효과에 관심이 있는 경우 10명의 환자를 모두 CBT 그룹에 배치하고 치료가 끝날 때와 6개월 후에 다시 평가할 수 있습니다. 이 디자인은 다음 표에 나와 있습니다.

One-way within-groups ANOVA
Patient	Time
Patient	5 weeks	6 months
s1
s2
s3
s4
s5
s6
s7
s8
s9
s10

시간은 두 가지 수준(5주, 6개월)이 있는 그룹 내 요인입니다. 각 환자는 두 수준 모두에서 측정되기 때문에 그룹 내 요인이라고 합니다. 이러한 통계 디자인을 그룹내 일원분산분석(one-way within-groups ANOVA)라고 합니다. 각 주제가 두 번 이상 측정되기 때문에 설계를 반복 측정 ANOVA라고도 합니다.

시간에 대한 F 검정이 유의한 경우 환자의 평균이 5주에서 6개월 사이에 변경되었다는 결론을 내릴 수 있습니다. 치료 차이와 시간 경과에 따른 변화에 관심이 있는 경우 처음 두 연구 디자인을 결합하고 무작위로 5명의 환자를 CBT에 할당하고 5명의 환자를 EMDR에 할당하고 치료 종료(5주)와 6개월 후 결과를 평가할 수 있습니다.치료와 시간을 요인으로 모두 포함하면 치료(시간에 따른 평균), 시간(치료 유형에 대한 평균), 치료와 시간의 상호 작용의 영향을 조사할 수 있습니다. 처음 두 가지를 주효과(main effect)라고 하는 반면, 교호(상호)작용은 (당연히) 교호작용 효과(intereaction effect)라고 합니다.

Two-way factorial ANOVA with one between-groups and one within-groups factor
		Patient	Time
		Patient	5 weeks	6 months
rherapy	CBT	s1
		s2
		s3
		s4
		s5
	EMDR	s6
		s7
		s8
		s9
		s10

위 표와 같이 두 개 이상의 요인을 교차하면 요인 ANOVA(factoral ANOVA) 설계가 됩니다. 두 요인을 교차하면 양방향 ANOVA(two-way ANOVA)가 생성되고, 3개 요인을 교차하면 3원(three-way) ANOVA가 생성되는 식입니다. 요인 설계에 군간(between) 요인과 군내(within) 요인이 모두 포함되는 경우 혼합 모형 ANOVA(mixed-model ANOVA)라고도 합니다. 현재 설계는 2원 혼합 모델 요인 ANOVA(two-way mixed-model ANOVA)입니다.

이 경우 세 가지 F 테스트가 있습니다.

Tremtment: CBT와 EMDR이 불안에 미치는 영향, main effect
Time: 시간 불안이 5주차에서 6개월 추적관찰, main effect
Treatment x Time: Treatment가 Time이 지남에 따른 영향, interaction effect

이제 디자인을 조금 확장해 보겠습니다. 우울증은 치료에 영향을 미칠 수 있으며, 우울증과 불안은 종종 공존하는 것으로 알려져 있습니다. 대상을 치료 조건에 무작위로 할당했지만, 두 치료 그룹이 연구 시작 시 환자의 우울증 수준이 다를 수 있습니다. 치료 후 차이는 실험적 조작이 아니라 기존의 우울증 차이 때문일 수 있습니다. 우울증은 또한 종속변수에 대한 그룹 차이를 설명할 수 있기 때문에 교란 요인(confounding factor)가 됩니다. 그리고 이 실험은 불안에 대한 것으로 우울증에는 관심이 없습니다. 그런 이유로 외생변수라고 합니다.

환자 모집 시 Beck Depression Inventory(BDI)와 같은 자가 보고 우울증 척도를 사용하여 우울증 수준을 기록했다면 치료 유형의 영향을 평가하기 전에 우울증을 치료 그룹 차이에 대해 통계적으로 조정할 수 있습니다. 이 경우 BDI를 공변량(covariance)이라고 하고 설계를 공분산 분석(ANCOVA)이라고 합니다.

마지막으로 이 연구에서 단일 종속 변수(환자들의 값, STAI)를 기록했습니다. 추가적으로 불안 척도(예: 가족 평가, 치료사 평가, 불안이 일상 기능에 미치는 영향을 평가하는 척도)를 포함하는 경우 이 연구의 타당성을 높일 수 있습니다. 이러한 경우 반응변수는 두개 이상이 될 수 있습니다. 반응 변수가 두 개 이상인 경우 설계를 다변량 분산 분석(MANOVA)이라고 합니다. 공변량이 있으면 다변량 공분산 분석(MANCOVA)이라고 합니다.

Fitting ANOVA

aov()

ANOVA와 회귀 방법론은 다른 목적으로 개발되었지만 함수적으로 둘 다 일반 선형 모델의 특수한 경우입니다. ANOVA에서도 lm() 함수를 사용하여 모델을 분석할 수 있지만 주로 aov() 함수를 사용합니다. lm() 및 aov()의 결과는 동일하지만 aov() 함수는 이러한 결과를 ANOVA 방법론자에게 더 친숙한 형식으로 제공합니다.

aov(formular, data=dataframe)

다음 표는 aov()함수의 formular에 적용되는 기호들입니다. 이 표의 y는 반응변수, A, B, C 는 요소(factor)들을 나타냅니다.

Special symbols used in R formulas
기호	내용
~	반응변수 ~ 설명변수
+	셜명변수들의 분리
:	변수들 사이의 교호작용을 표현. y~A+B+A:B 요인 A, B와 그 둘의 교호작용
*	설명변수들의 모든 사항들을 나타냄 y ~ ABC ↔ y ~ A + B + C + A:B + A:C + B:C + A:B:C.
^	지정된 차수의 교호작용을 포함 ^2는 각 요인과 요인 두개의 교호작용을 포함 y ~ (A+B+C)^2 ↔ y ~ A + B + C + A:B + A:C + A:B.
.	종속 변수를 제외한 데이터 프레임의 다른 모든 변수에 대한 자리 표시자입니다. y, A, B, C로 구성한 dataframe에서 y~. ↔ y~A+B+C

다음 표는 몇 가지 일반적인 연구 설계에 대한 공식을 제공합니다. 이 표에서 소문자는 양적 변수이고 대문자는 그룹화 요인이며 subject는 subject에 대한 고유 식별자 변수입니다.

Formulas for common research designs
Design	Formula
one-way ANOVA	y~A
One-way ANCOVA with one covariate	y ~ x + A
Two-way Factorial ANOVA	y ~ A * B
Two-way Factorial ANCOVA with two covariates	y ~ x1 + x2 + A * B
Randomized Block	y ~ B + A (where B is a blocking factor)
One-way within-groups ANOVA	y ~ A + Error(Subject/A)
Repeated measures ANOVA with one within-groups factor (W) and one between-groups factor (B)	y ~ B * W + Error(Subject/W)

효과가 공식에 나타나는 순서(order)는 (a) 요인이 둘 이상이고 설계가 불균형하거나 (b) 공변량이 존재할 때 중요합니다. 이 두 조건 중 하나가 존재할 때 방정식의 오른쪽에 있는 변수는 서로 상관됩니다. 이 경우 종속 변수에 미치는 영향을 명확하게 나눌 수 있는 방법은 없습니다.

예를 들어, 처리 조합(treatment combination)에서 관측치가 같지 않은 양방향 ANOVA에서 모델 y ~ A*B는 모델 y ~ B*A와 동일한 결과를 생성하지 않습니다.

기본적으로 R은 ANOVA 효과를 계산하기 위해 유형 I(순차적) 접근 방식을 사용합니다. 첫 번째 모델은 y ~ A + B + A:B로 쓸 수 있습니다. 결과 R ANOVA 표는 다음을 평가할 것입니다.

y에 대한 A의 효과
A를 통제하면서 y에 미치는 B의 영향
A, B의 주효과를 통제하면서 y에 A와 B의 상호작용 효과

[Order counts!]

독립 변수가 서로 또는 공변량과 상관 관계가 있을 때 종속 변수에 대한 이러한 변수의 독립 기여도를 평가하는 명확한 방법은 없습니다. 요인 A, B와 종속 변수 y가 있는 불균형 이원 요인 설계를 고려합니다. 이 설계에는 A 및 B 주효과와 A x B 상호작용이라는 세 가지 효과가 있습니다.

Y ~ A + B + A:B

위 공식을 사용하여 데이터를 모델링한다고 가정하면 이 방정식의 오른쪽에 있는 효과 간에 y의 분산을 분할하는 세 가지 일반적인 접근 방식이 있습니다.

유형 I(순차): 효과는 공식의 앞부분에 나타나는 효과에 대해 조정됩니다. A는 미조정입니다. B는 A에 대해 조정됩니다. A:B 상호 작용은 A 및 B에 대해 조정됩니다.
유형 II(계층적): 효과는 동일하거나 더 낮은 수준의 다른 효과에 대해 조정됩니다. A는 B에 대해 조정되고 B는 A에 대해 조정됩니다. A:B 상호작용은 A와 B 모두에 대해 조정됩니다.
유형 III(한계): 각 효과는 모델의 다른 모든 효과에 대해 조정됩니다. A는 B 및 A:B에 맞게 조정됩니다. B는 A 및 A:B에 맞게 조정됩니다. A:B 상호 작용은 A와 B에 대해 조정됩니다.

R은 기본적으로 유형 I 접근 방식을 사용합니다.

표본 크기의 불균형이 클수록 항의 순서가 결과에 미치는 영향이 커집니다. 일반적으로 보다 근본적인 효과는 공식의 앞부분에 나열되어야 합니다. 특히, 공변량을 먼저 나열해야 하고, 그 다음에 주효과, 2원 교호작용, 3원 교호작용 순으로 나열해야 합니다. 주효과의 경우 더 근본적인 변수가 먼저 나열되어야 합니다. 따라서 성별은 치료 전에 나열됩니다. 결론은 다음과 같습니다. 연구 설계가 직교하지 않은 경우(즉, 요인 및/또는 공변량이 상관 관계가 있는 경우) 효과의 순서를 지정할 때 주의하십시오.

특정 예제로 이동하기 전에 car 패키지의 Anova() 함수(표준 anova() 함수와 혼동하지 말 것)는 Type I 접근 방식보다 Type II 또는 Type III 접근 방식을 사용하는 옵션을 제공합니다. aov() 함수는 Type I 접근 방식을 사용합니다. 자세한 내용은 help(Anova, package="car")를 참조하세요.

anova_test()

rstatix 패키지의 anova_test() 함수를 적용합니다. 이 함수는 다양한 유형의 ANOVA 테스트를 수행할 수 있는 파이프 친화적인 프레임워크를 제공합니다.

독립 측정 ANOVA: 개체 간 설계
반복 측정 ANOVA: 개체 내 설계
혼합 ANOVA: 피험자 내 및 피험자 간 혼합 설계(분할 그림 ANOVA라고도 함)
ANCOVA: 공분산 분석

이 함수는 anova() 및 aov() 함수를 포함합니다. 인수로 모델과 공식을 입력으로 지원할 수 있습니다. 변수는 dv, wid, between, within, covariate 인수를 사용하여 문자형 벡터로 지정할 수도 있습니다. 결과에는 ANOVA 표, 일반화된 효과 크기 및 일부 가정 확인이 포함됩니다.

anova_test(data, formula, dv, wid, …)

data: 분석을 위한 data.frame 또는 모델
formula: aov() 함수에 사용되는 모델, 반응변수~공변량+설명변수1+…
- betweens(독립측정 ANOVA): y~b1*b2
- within(반복측정 ANOVA): y~w1*w2+Error(id/(w1*w2))
- mixed ANOVA: y~b2*b2*w1+Error(id/w1)
- formula(공식)에 변수가 포함되어 있지 않으면 선형 모델이 직접 피팅되어 ANOVA 함수에 전달됩니다. 반복 설계의 경우 ANOVA 변수가 공식에서 구문 분석됩니다.
dv :수치형, 반응변수
wid:(인자, factor) column name containing individuals/subjects identifier. Individual별로 구성

부분분수의 미분

내용 방법 1 방법 2 방법 3 부분분수의 미분 분수의 미분은 일정한 공식 을 적용하여 계산할 수 있습니다. 그러나 분수 자체가 단순한 표현으로 이루어지지 않았다면 미분 과정이나 결과는 매우 복잡할 수 있습니다. 만약 복잡한 분수 함수를 간단한 분수들로 분해할 수 있다면 계산이 보다 간편해질 것입니다. 이와 같이 분해된 간단한 분수들을 부분분수 라고 합니다. 예를 들어 다음 두 분수의 합을 계산해 봅니다. $$\begin{align} \frac{1}{x+1}+\frac{2}{x-1}&=\frac{x-1+2(x+1)}{(x+1)(x-1)}\\ &=\frac{3x+1}{x^2-1} \end{align}$$ 위 과정은 3개 이상의 여러 분수에서도 이루어질 수 있습니다. 또한 역으로 진행될 수 있습니다. 즉, 분수를 부분 분수로 분할할 수 있습니다. 그러나 이러한 과정은 대수분수 (분자의 가장 큰 차수가 분모의 최고의 차수보다 작은 분수)에서만 이루어질 수 있습니다. 예를 들어 $\displaystyle \frac {x^2+2}{x^2-1}$의 경우는 분자와 분모의 차수는 2차로 같습니다. 이러한 경우 다음과 같이 분리할 수 있습니다. $$\frac{x^2+2}{x^2-1}=1+\frac{3}{x^2-1}$$ 위의 식 중 $\displaystyle \frac{3}{x^2-1}$은 분자의 차수가 분모의 차수 보다 낮은 대수 분수이므로 부분 분수로 분리할 수 있습니다. 이와같이 부분 분수로 분해하는 방법은 다음과 같이 몇 가지로 구분할 수 있습니다. 방법 1 위 예의 결과 $\displaystyle \frac{3x+1}{x^2-1}$의 경우를 역으로 생각해 봅니다. 분모의 인수분해가 가능하면 그 분모의 인수에 의해 다음과 같이 분해할 수 있습니다. $$\begin{align} \frac{3x+1}{x^2-1}&=\frac{3x+1}{(x+1)(x-1)}\\ &=\frac{A}{x+1...

sons dataStory

이 블로그 검색

pandas_ta를 적용한 통계적 인덱스 지표

R 분산분석(ANOVA)의 개요

내용

분산분석의 개요

용어

Fitting ANOVA

aov()

anova_test()

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

[Linear Algebra] 유사변환(Similarity transformation)

유리함수 그래프와 점근선 그리기

부분분수의 미분