여러 집단을 한꺼번에 비교

ANOVA와 카이제곱 검정은 서로 다른 데이터 유형에 대해
“여러 집단 간의 차이가 우연을 넘어서 존재하는가?”라는 동일한 질문에 답하려는 도구입니다.

이 두 검정법은 사회과학, 의학, 정책분석 등 다양한 분야에서 그룹 간의 차이와 독립성을 검정하는 가장 표준적인 방법입니다. 그러나 유의성 결과를 해석할 때에는 항상 실질적 중요성, 표본의 특성, 그리고 자료 수집 과정의 전제 조건을 함께 고려해야 합니다.

1 ANOVA

ANOVA의 핵심 질문은 다음과 같습니다:

“세 개 이상의 집단이 동일한 평균을 공유하고 있다고 볼 수 있는가?”

예를 들어, 세 개의 교육 정책에 따라 학생의 수학 성적 평균이 다른지를 비교하고자 한다면, 우리는 다음과 같은 가설을 설정하게 됩니다.

  • 귀무가설 \(H_0\): 모든 집단의 평균이 같다 (\(\mu_1 = \mu_2 = \mu_3\))
  • 대립가설 \(H_1\): 적어도 하나의 집단 평균이 다르다

ANOVA는 각 집단의 집단 내 변동(within-group variance)집단 간 변동(between-group variance)을 비교합니다. 이 비율이 충분히 크면, “집단 간 평균 차이가 단순한 우연 이상의 것일 수 있다”고 판단합니다.

검정통계량은 다음과 같은 F-통계량으로 계산됩니다:

\[F = \frac{\text{Between-group Mean Square}}{\text{Within-group Mean Square}} \]

\(F\) 값이 크면, 집단 간 평균 차이가 무시할 수 없는 수준이라는 뜻이며,
유의수준 \(\alpha\)와 비교하여 귀무가설의 기각 여부를 결정합니다.

2 카이제곱 검정

ANOVA가 연속형 변수들 간의 평균을 다루는 반면,
카이제곱 검정(Chi-square test)은 범주형 변수들 간의 독립성을 분석하는 데 사용됩니다.

예를 들어, 다음과 같은 질문을 생각해볼 수 있습니다:

  • 성별에 따라 투표 참여율이 차이가 있을까?
  • 고용 형태(정규직/비정규직)에 따라 노조 가입률이 다를까?
  • 지역별로 정당 지지도 분포는 독립적일까?

이러한 질문에 대해 우리는 두 범주형 변수 간의 독립성(independence)을 검정하고자 합니다.

가장 기본적인 형태는 교차표(contingency table)입니다. 예를 들어 성별(Gender)과 투표참여 여부(Participation)를 2×2로 나눈 표를 생각해봅시다. 각 셀에는 관측된 빈도(observed count)가 들어가고, 카이제곱 검정은 각 셀에 대해 다음과 같은 값을 계산합니다:

\[\chi^2 = \sum_{i=1}^{r} \sum_{j=1}^{c} \frac{(O_{ij} - E_{ij})^2}{E_{ij}}\]

여기서 - \(O_{ij}\)는 관측값(observed count), - \(E_{ij}\)는 기대값(expected count), - \(r, c\)는 행과 열의 범주 개수입니다.

기대값은 다음과 같이 계산됩니다:

\[E_{ij} = \frac{\text{row total}_i \times \text{column total}_j}{\text{grand total}}\]

카이제곱 검정에서 중요한 개념은 자유도(degree of freedom)입니다.
이는 단순히 “얼마나 많은 독립적인 셀 정보를 비교할 수 있는가”를 의미하며, 다음과 같이 계산됩니다:

\[\text{df} = (r - 1)(c - 1)\]

자유도가 높을수록 \(\chi^2\) 분포는 더 부드러운 종 모양에 가까워지고, 검정의 민감도도 함께 증가합니다.

한 가지 흥미로운 점은, 카이제곱 검정에서 단순한 제곱합(Euclidean distance)이 아니라, 각 항에 대해 기대값으로 나눈 제곱비율을 사용한다는 것입니다. 이는 기대 도수에 따라 관측치의 변동 폭이 다르다는 점을 반영하기 위함입니다. 희귀한 사건에서의 작은 차이는 큰 의미를 가질 수 있기 때문에 (c.f. 정보 엔트로피), 스케일을 조정한 통계량이 필요합니다.

예시: 성별과 정치 참여의 독립성 검정

참여함 참여 안함 합계
남성 550 450 1000
여성 600 400 1000
합계 1150 850 2000

이 경우, 두 변수(성별, 참여여부)가 독립이라면
각 셀의 기대값은 행합계 × 열합계 / 전체합계로 계산됩니다.

  • 남성-참여: \(E = \frac{1000 \times 1150}{2000} = 575\)
  • 남성-불참: \(E = \frac{1000 \times 850}{2000} = 425\)
  • 여성-참여: \(E = 575\)
  • 여성-불참: \(E = 425\)

관측값과의 차이를 기반으로 \(\chi^2\) 통계량을 계산하고,
자유도(df=1)에 따른 임계값과 비교하면, 두 변수의 독립 여부를 판단할 수 있습니다.