수학(10)
-
[상관분석] 두 변수 사이의 상관관계란
상관분석 Correlation 은 간단하게 두 변수 사이의 관계가 얼마나 직선에 가까운가를 살펴보는 분석입니다. 위 그림이 산점도 Scatterplot 입니다. 산점도는 상관관계를 시각화하는 방법으로 많이 사용됩니다. 위 그림처럼 방향이 위쪽을 향하는 양의 상관관계와, 반대로 아래쪽을 향하는 음의 상관관계가 있습니다. 상관계수 correlation coefficient 는 피어슨의 r Pearson's r 이라고도 불립니다. r의 범위는 -1 부터 1 사이의 값을 가집니다. r의 절대값이 1에 가까울수록 직선에 가깝다는 의미가 됩니다. 주의할 점은, 직선의 기울기의 정도와는 다른 개념입니다. 직선을 그려서 그 위에 모든 데이터가 있으면 r의 절대값은 1이 됩니다. 하지만 상관계수 r은 직접적으로 두 변수..
2019.01.14 -
[ANOVA 분산분석] 기본 가정과 예외, 가설
ANOVA 분산분석은 세 가지 기본 가정이 있습니다. 이 기본가정이 충족된다는 전제조건 하에 ANOVA 분산분석이 의미가 있습니다. 먼저는, 정규성입니다. 각 그룹에 있는 데이터는 정규분포의 형태를 가져야 합니다. 둘째는, 등분산입니다. 각 그룹의 분산은 서로 같은 분산을 가져야 합니다. 한 그룹은 넓고, 한 그룹은 좁은 분산을 가지는 경우엔 분산분석을 할 수 없습니다. 아래 그림에서 위는 등분산이 성립하는 경우, 아래는 등분산이 성립하지 않는 경우입니다. 셋째는, 독립성입니다. 각 그룹에 대해서 관찰은 서로 독립적이어서, 그룹간에 서로 영향을 주지 않아야 합니다. 이렇게 기본 가정이 있지만, 예외를 허락하는 경우가 있습니다. 만약 데이터의 수가 아주 많은 경우에는, 첫 번째 조건인 정규성을 가지지 않아..
2018.12.25 -
[ANOVA 분산분석] 에타제곱 η-squared 의 의미
t검정에서 r제곱값이 사용되는 것과 같은 의미로, ANOVA 분산분석에서는 η제곱값이 사용됩니다. η제곱값의 범위는 r제곱값과 같이 0이상 1이하의 값을 가집니다. 값이 클 수록, 그룹을 나눈 요인이 그룹의 평균을 다르게 만드는 요인으로 얼마나 많이 기여했는가를 알려줍니다. 예를 들면, 고혈압 환자 그룹을 세 개로 나눠 A그룹에는 a약, B그룹에는 b약, C그룹에는 c약을 처방하고, 혈압이 얼마나 내려가는지 결과를 측정한다고 해보겠습니다. 그리고 약물 치료 후에 얻은 혈압감소 수치를 모아 분석한 결과, η제곱값이 0.7로 나온 경우, 그룹 간의 차이가 발생한 요인 중에 70%가 다르게 처방한 약 때문이라고 볼 수 있습니다. 나머지 30%는 설명할 수 없는 요인에 의한 것이라고 해석합니다. 유명한 통계학자..
2018.12.25 -
[ANOVA 분산분석] Tukey's HSD 값의 q값 찾기
ANOVA 분산분석에서 사후검정 Post Hoc Test 로 쓰이는 Tukey's HSD의 q값을 찾는 방법을 알려드릴게요. 일단, 여기 들어가서 보시면 유의확률 0.05, 0.01, 이렇게 두 가지 경우의 값을 찾을 수 있는 수치표가 있습니다. 각 셀에서 위에 있는 값이 0.05일 경우이고, 아래 있는 값이 0.01일 경우입니다. 링크를 들어가면 나오는 표에서 왼쪽 세로 열에서 전체 샘플 수(N)에서 그룹의 수(k)를 뺀 dfwithin을 찾고, 상단 가로 행에서 그룹의 수(k)를 찾아 매치되는 셀을 찾으면 됩니다. 위에서는 전체 샘플 수는 9개, 그룹의 수는 3개라고 가정한 예시입니다. 전체 샘플 수에서 그룹의 수를 뺀 6을 세로 열에서 찾고, 그룹의 수인 3을 가로 행에서 찾으면, 두 개의 값을 찾..
2018.12.25 -
[분산분석] t검정을 반복해야 한다면, ANOVA!
두 그룹의 통계적 차이를 밝혀내는 검정이 t검정입니다. 만약 A, B, C, 이렇게 세 그룹이 있다고 가정하면, 세 그룹 간의 차이를 밝혀내기 위해서 총 3회의 t검정(A와 B, A와 C, B와 C)을 해야 합니다. 그룹의 개수가 증가할 수록 분석해야 하는 횟수가 기하급수로 증가합니다. t검정을 여러번 하는 대신 여러 그룹 간의 통계적 차이를 간단하게 비교할 수 있는 방법이 ANOVA Analysis of Variance (One-Way) 입니다. 단, 어떤 그룹 사이에 통계적 차이가 유의미한가는 단번에 알 수는 없고, 또 다른 과정을 통해 찾아야 합니다. 하지만 t검정을 여러번 하는 것보다 훨씬 수월한 방법이에요. ANOVA는 전체평균 Grand Mean 과 그룹내평균을 이용하여 그룹간 통계적 차이가 ..
2018.12.25 -
[결정계수] t통계량에서 r제곱의 의미는?
예를 들어, 표본 50명을 대상으로 새로운 다이어트 방식을 실시했는데, r제곱의 값이 0.24로 나왔다고 가정하겠습니다. 여기서 0.24는 무슨 의미를 가질까요? 간단하게 설명하면 다음과 같습니다. 표본 50명에게 체중 변화가 나타났습니다. 이들에게 나타난 체중 변화 중 24%는 새로운 다이어트 방식 때문이라는 것을 의미합니다. 따라서, r제곱값은 0에서 1 사이의 값을 가지는데, 1에 가까울수록 새로운 다이어트 방식이 체중 변화에 미치는 영향이 커지는 것입니다. 반대로, 0에 가까울수록 체중 변화에 미치는 영향이 적어지는 것이죠.
2018.12.14