[추론통계] 통계 분석의 시작, 가설

2018. 11. 30. 10:30수학/통계

반응형


통계치를 분석하기에 앞서 먼저 해야할 것이 있습니다. 바로 가설을 세우는 것입니다. 가설을 어떻게 세우는가에 따라 분석하는 방법이 달라질 수 있습니다.


예를 들어, 멀리뛰기 선수들에게 어떤 특정한 훈련을 시켰을 때, 이 선수들의 기록이 향상될 것을 기대하는 경우는 다음과 같은 선택지를 가집니다. 


- 케이스 1: 특정한 훈련을 받은 멀리뛰기 선수들의 기록이 받기 전보다 향상된다.

- 케이스 2: 특정한 훈련을 받은 멀리뛰기 선수들의 기록이 받기 전과 같거나 더 못하다.

 

보통은 특정 개입(intervention)이 있기 전의 상태와 같은 성질을 유지한다고 보는 것이 기본적인 가정입니다. 다시 말해 특정한 훈련을 받은 선수들은 훈련을 받지 않은 선수들과 비교했을 때 기록이 향상된다고 보기 어렵다라는 기본적인 가정을 합니다. 이런 기본적인 가정을 귀무가설 또는 H0 또는 null hypothesis 라고 합니다.


반대로 개입이 발생한 후 기록이 향상되는 결과를 가져온다고 보는 가정이 있습니다. 앞선 가정과 반대되는 가정을 대립가설 또는 H1 또는 HA 또는 alternative hypothesis 라고 합니다. 


멀리뛰기 선수 예시의 경우:


- H0: 특정한 훈련을 받은 일부 선수의 기록 평균이, 훈련을 받기 전 선수 전체의 기록 평균보다 확연하게 높지 않다. 즉, 같거나 오히려 낮다.

- HA: 특정한 훈련을 받은 일부 선수의 기록 평균이, 훈련을 받기 전 선수 전체의 기록 평균보다 상당하게 높다. 


One-tailed Test & Two-tailed Test

One-tailed Test와 Two-tailed Test에 대하여 우리나라에선 각각 일방적 검증양방적 검증이라는 단어를 사용하고 있습니다. 영어로 보면 더 쉽게 이해되는데, 아래 그림을 보면 왜 이런 단어를 쓰는지 확인할 수 있습니다. 

앞서 설명했던 멀리뛰기 선수의 예를 살펴보겠습니다. 멀리뛰기 선수에게 특정한 훈련이 효과가 있는지를 판단하는 방법은 훈련을 받은 선수들의 평균이 상당히 크다는 것만 입증하면 됩니다. 이 경우에는 왼쪽 그래프와 같이 One-tailed Test를 사용하여 통계적인 추론을 이야기합니다.  

즉, A 그래프와 같이 훈련을 받은 선수들의 평균이 받지 않은 선수들의 평균보다 높지만, 상당히 높지 않아 효과가 있다고 보기 어려운 경우엔 H0를 수용합니다. 즉, 훈련은 기록을 향상시킨다고 볼 수 없다는 결론이 나오게 됩니다. 


반대로 B 그래프와 같이 훈련을 받은 선수들의 평균이 받지 않은 선수들의 평균보다 높고, 그 차이가 상당하다고 보는 경우엔 H0를 기각합니다. 즉, 훈련은 기록을 향상시킨다고 결론을 냅니다. 


만약 가설을 잘못 이해하고 Two-tailed Test 를 하게 되면 다른 결과가 나올 수 있습니다. 

위 그래프를 보면 각 그래프 꼬리 쪽에 빨간 부분의 영역의 크기는 동일합니다. 즉, 오른쪽 그래프의 양쪽 끝의 면적은 왼쪽 그래프의 한쪽 면적을 반으로 나눈 값과 같습니다. 만약 멀리뛰기 선수의 예시에서 Two-tailed Test를 시행하는 경우, One-tailed Test에서는 H0를 기각하는 결론을 내리게 되지만 Two-tailed Test에서는 H0를 수용하는 결론을 내리게 됩니다. 미세한 차이일지라도 통계적으로는 용납할 수 없는 범위가 됩니다. 따라서 어떤 가설을 세우고 어떤 방식으로 검정을 진행할지에 대하여 충분한 고민이 필요합니다.





반응형