분산분석 (Analysis of variance)의 개요
관련된 내용
두 개이상 여러 집단의 비교는 각 그룹의 분포를 비교하는 것과 같습니다. 분포의 비교는 평균이나 분산 등을 기준으로 평가할 수 있습니다. z 검정 또는 t 검정이 평균을 비교 대상으로 한 것과 같이 그 대상을 각 분포의 분산으로 지정할 수 있습니다. 이 경우 사용하는 방법론을 분산 분석(ANOVA)이라고 합니다. 예를 들어 두 개 이상의 집단에서 각 집단내의 변동과 집단간 변동을 비교하여 모든 집단의 평균이 동일하다는 귀무가설을 검정하는 통계방법입니다. 두 개 집단의 가설검정을 위해 정규분포 또는 t 분포를 적용하였지만 그 이상의 집단을 비교하기 위해서는 집단 간의 변동성의 정도를 비교하는 F분포를 사용합니다.
분산분석을 위한 자료는 비교 대상이 되는 명목변수인 요인변수 (factor, 설명변수)와 각 요인에 따른 값들 즉, 반응변수(respond variable, 종속변수)로 구성됩니다. 각 요인은 몇 개의 소집단으로 분류될 수 있으며 이 소집단의 요인들을 처리 (treatment, 요인수준)라고 합니다. 요인 수준에 대응하는 반응변수가 한 개인 경우의 분석을 일원분산분석 (one-way anova)라고 하며 여러 개인 경우를 다변량분산분석 (manova)라고 합니다.
표 1은 한개의 요인에 따른 분리된 실험군에 대한 두 개의 처리효과를 포함합니다. 이 경우 각 처리에 대한 관측치 수는 같으므로 균형 설계(balanced design)라고 하며 표본 크기가 설계의 셀 전체에서 같지 않으면 불균형 설계(unbalanced design)라고 합니다.
treatment(factor) | |
---|---|
group1 | group2 |
s1 | s6 |
s2 | s7 |
s3 | s8 |
s4 | s9 |
s5 | s10 |
표 1의 통계적 설계는 단일 분류 변수가 있기 때문에 일원 분산 분석(one-way ANOVA)이라고 합니다. 특히, 그룹 간 일원 분산 분석입니다. 또한 표 2와 같이 같은 그룹내에서 한 변수에 대한 다른 두 효과들을 검정할 수 있습니다.
group1 | Time(factor) | |
---|---|---|
5 weeks | 6 months | |
s1 | ||
s2 | ||
s3 | ||
⋮ |
표 2의 경우 독립변수인 factor는 시간으로 정의된 시간이 수준이 됩니다. 즉, 동일한 그룹에서 두 수준이 측정되었으므로 그룹 내 요인이라고 합니다. 이러한 통계 디자인을 그룹내 일원분산분석(one-way within-groups ANOVA)라고 합니다.
표 3에 group2에 같은 실험 실시한 결과를 첨가한다면 그룹간과 그룹내의 효과에 대한 분석을 실시할 수 있습니다. 이 경우 요인 2개에 대한 각각의 처리의 효과에 대한 비교를 실시할 수 있습니다. 이 경우 treatment과 Time의 효과와 두 요인의 상호작용을 조사할 수 있습니다. 각 요인의 효과를 주효과(main effect), 상호작용에 의한 효과를 교호효과(interaction effect)라고 합니다.
group | Time(factor2) | |||
---|---|---|---|---|
5 weeks | 6 months | |||
treatment (factor2) | trt1 | s1 | ||
s2 | ||||
s3 | ||||
s4 | ||||
s5 | ||||
trt2 | s6 | |||
s7 | ||||
s8 | ||||
s9 | ||||
s10 |
표 3과 같이 두 개 이상의 요인을 교차하면 요인 ANOVA(factoral ANOVA) 설계가 됩니다. 두 요인을 교차하면 2원 ANOVA가 생성되고, 3개 요인을 교차하면 3원 ANOVA가 생성되는 식입니다. 요인 설계에 그룹간 요인과 그룹내 요인이 모두 포함되는 경우 혼합 모형 ANOVA(mixed-model ANOVA)라고도 합니다. 이 경우 세 가지 F 테스트가 있습니다. 각각 Tremtment, Time, 그리고 Treatment x Time 상호 작용에 대한 세가지 F 검정이 요구됩니다.
위 디자인의 대상인 treatment, time에 영향을 미칠 수 있는 잠재적 조건들이 존재할 수 있습니다. 이러한 변수를 교란 요인(confounding factor)라고 합니다. 교란요인에 의한 변량을 공분산(covariance)이라고 하고 그 효과를 분석하는 설계를 공분산 분석(ANCOVA)이라고 합니다.
위 설계는 각 처리에 대한 반응 변수는 하나입니다. 반응변수가 두개 이상인 경우를 다변량 분산 분석(MANOVA)이라고 합니다. 공변량이 있으면 다변량 공분산 분석(MANCOVA)이라고 합니다.
댓글
댓글 쓰기