[상관분석] 두 변수 사이의 상관관계란

2019. 1. 14. 16:00수학/통계

반응형


상관분석 Correlation 은 간단하게 두 변수 사이의 관계가 얼마나 직선에 가까운가를 살펴보는 분석입니다. 위 그림이 산점도 Scatterplot 입니다. 산점도는 상관관계를 시각화하는 방법으로 많이 사용됩니다. 위 그림처럼 방향이 위쪽을 향하는 양의 상관관계와, 반대로 아래쪽을 향하는 음의 상관관계가 있습니다. 



상관계수 correlation coefficient 는 피어슨의 r Pearson's r 이라고도 불립니다. r의 범위-1 부터 1 사이의 값을 가집니다. r의 절대값이 1에 가까울수록 직선에 가깝다는 의미가 됩니다. 주의할 점은, 직선의 기울기의 정도와는 다른 개념입니다. 직선을 그려서 그 위에 모든 데이터가 있으면 r의 절대값은 1이 됩니다. 하지만 상관계수 r은 직접적으로 두 변수가 얼마나 영향을 주는지에 대한 기여도를 설명하지 않습니다. 상관계수를 제곱한 값인 결정계수 coefficient of determination r2 가 두 변수가 서로 얼마나 영향을 주는지에 대한 기여도를 설명합니다. 위 공식에 있는 상관계수가 의미있는 이유는 부호가 있어서 양 또는 음의 방향을 설명해주기 때문입니다. 



상관분석에 대한 가설을 세우는 것에는 ρ rho 가 사용됩니다. 귀무가설은 두 변수 사이에 유의미한 상관관계가 없다는 것입니다. 그래서 'ρ가 0이다' 라는 가설을 세우게 됩니다. 반대로 대립가설은 'ρ가 0이 아니다' 또는 'ρ가 0보다 작다' 또는 'ρ는 0보다 크다'로 설정할 수 있습니다. 상관분석에서 상관계수의 분포는 t분포를 따릅니다. 그래서 t검정과 같이 t분포표에서 t값을 찾아 비교하여 결과를 도출합니다. 



귀무가설의 기각여부를 판단하는 것은 ρ rho 의 신뢰구간 Confidence Interval 과 관련이 있습니다. 귀무가설을 기각하지 않기 위해서는 ρ 의 신뢰구간에 0이 포함되어야 합니다. ρ 의 신뢰구간을 직접 계산해서 찾는 건 약간 어렵습니다. 아래에 공식을 소개하겠습니다.






위 공식으로 직접 구하지 않고, 프로그램 R 을 이용하여 구하는 방법이 있습니다. 더 쉽고 정확한 방법입니다. 


> cor.test(data$alcohol, data$caffein, method = "pearson", conf.level = 0.95)


아래는 결과값의 예시입니다.


Pearson's product-moment correlation data: data$alcohol and data$caffein t = -1.2787, df = 59, p-value = 0.206 alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: -0.39951396 0.09138564 sample estimates: cor -0.1642141


위 결과를 보면 95%의 신뢰구간의 범위가 -0.3995 부터 0.0914 까지인데, 이 구간에 0이 포함되어 있습니다. 따라서 귀무가설을 기각할 수 없다는 결론에 이르게 됩니다. 


상관분석에선 주의해야 할 부분이 있습니다. 상관관계 Correlation 와 인과관계 Causation 를 혼동하기가 쉽습니다. 예를 들어, 개인이 느끼는 행복감의 정도와 친구의 수를 놓고 보면, 행복함을 많이 느끼는 사람이 친구가 많은지, 친구가 많은 사람이 행복감을 느끼는지 규정하기가 어렵습니다. 어떤 것이 먼저인지를 명확히 할 수 없는 경우입니다. 이런 경우가 상관관계의 분석이 적합한 경우입니다. 하지만, 일기 예보에 비가 온다고 한 날과 우산을 들고 나가는 것을 놓고 보면, 일기예보가 있었기 때문에 우산을 가지고 나가는 것을 알 수 있습니다. 이런 경우는 인과관계가 있는 경우입니다. 상관분석을 하는 것이 적합하지 않습니다. 


또 반대로, 상관관계 분석을 할 때 발생할 수 있는 오류가 크게 두 가지 있습니다. 제3의 변인문제 Third Variable Problem 인과의 오류 Post Hoc Fallacy 입니다. 제3의 변인문제는, 예를 들어, 수능점수와 대학교 학점간의 관계 사이에서 발생할 수 있습니다. 수능점수나 대학교 학점에 영향을 줄 수 있는 것은 선생님(교수님)과의 관계, 공부해야 할 동기 등 여러 변수가 영향을 줄 수 있습니다. 이런 경우, 제3의 변인문제가 발생할 수 있습니다. 인과의 오류 문제는, 예를 들어, 폭력적인 게임을 하는 사람이 폭력성이 증가하는 것과 상관관계가 있다는 것을 분석하려고 하는 경우에 발생할 수 있습니다. 폭력적인 게임을 하는 사람이 폭력성이 증가하는 것이 아니라, 폭력적인 것을 좋아하는 사람이 폭력적인 게임을 한다는 경우입니다. 앞에 설정한 인과 관계가 사실상 잘못된 설정이 되는 오류입니다. 






반응형