[분산분석] t검정을 반복해야 한다면, ANOVA!

2018. 12. 25. 12:30수학/통계

반응형

두 그룹의 통계적 차이를 밝혀내는 검정이 t검정입니다. 만약 A, B, C, 이렇게 세 그룹이 있다고 가정하면, 세 그룹 간의 차이를 밝혀내기 위해서 총 3회의 t검정(A와 B, A와 C, B와 C)을 해야 합니다. 그룹의 개수가 증가할 수록 분석해야 하는 횟수가 기하급수로 증가합니다. 


t검정을 여러번 하는 대신 여러 그룹 간의 통계적 차이를 간단하게 비교할 수 있는 방법이 ANOVA Analysis of Variance (One-Way) 입니다. 단, 어떤 그룹 사이에 통계적 차이가 유의미한가는 단번에 알 수는 없고, 또 다른 과정을 통해 찾아야 합니다. 하지만 t검정을 여러번 하는 것보다 훨씬 수월한 방법이에요.



ANOVA전체평균 Grand Mean 그룹내평균을 이용하여 그룹간 통계적 차이가 있는지 여부를 판단합니다. 전체평균은 그룹내평균들의 평균값이 아니라 샘플 전체의 평균을 따로 구해야 합니다. 단, 비교하려는 그룹 내의 샘플 개수가 모두 동일한 경우엔 그룹내평균들의 평균값을 구해도 괜찮습니다. 


두 그룹을 비교하는 t검정에서 t통계량을 쓰듯이, ANOVA검정에는 F값을 사용합니다. F값은 그룹간 평균의 분산그룹내 분산을 이용하여 구할 수 있습니다. F값이 특정 유의수준(예: 0.05)에서 기각역 Critical Region 에 속하는 경우 적어도 2개 그룹간에는 차이가 있다는 것을 의미합니다. 모든 그룹에 차이가 있다는 의미는 아니기 때문에 주의가 필요합니다.

각 분산과 자유도 사이엔 위와 같은 관계가 있습니다. 이 값은 이후 어떤 그룹간의 차이가 있는지를 찾는 수식 등에 사용됩니다.


F값은 수식에서 분자와 분모가 모두 양수이기 때문에 음수 값이 나올 수 없습니다. 그래서 F값의 분포는 위 그림처럼 양의 방향으로 긴 꼬리를 가진 모양이 됩니다. F값이 빨간 영역 내에 있는 경우에 어떤 그룹간의 차이가 통계적으로 의미가 있는지 다시 찾아야 합니다. 이것을 다중비교검정 Multiple Comparison Test 라고 합니다. 주로 사용되는 방법은 Tukey's HSD Honestly Significant Difference 입니다. 이 값은 오차 한계 Margin of Error 와 비슷한 의미라고 생각할 수 있습니다.



여기서 사용될 q값을 찾는 법은 여기서 확인해보시고 사용하시면 됩니다. 위 방법으로 구한 Tukey's HSD 값을 기준으로 그룹간 평균의 차이가 더 크면 통계적으로 유의미한 차이가 있다고 볼 수 있고, 반대로 더 작으면 통계적으로 유의미한 차이가 있다고 볼 수 없습니다. 그룹간 평균의 차이만 살펴보면 되기 때문에 간단하게 찾을 수 있습니다.


[더 알아보기]

ANOVA에서의 Tukey's HSD의 q값 찾기

ANOVA에서의 Cohen's d(준비중)

ANOVA에서 그룹간의 차이가 그룹을 나눈 요인에 의해 발생한 비율 η2 eta squared

ANOVA의 기본 가정과 예외, 가설




반응형