유의수준, 통계량, p-value

우리는 불확실한 현실 속에서, 어떤 주장이 “신뢰할 만한 것인지”를 판단해야 할 때가 많습니다.
통계학은 이런 판단을 내릴 수 있도록 정량적 기준을 제시합니다.
그 대표적인 틀이 바로 유의성 검정(significance testing)이며,
그 중심에는 검정통계량, 유의수준(α), 그리고 p-value라는 세 가지 도구가 놓여 있습니다.

가설 검정의 기본 원리는 단순합니다.
“귀무가설(null hypothesis)이 참이라고 가정했을 때, 실제 관측된 결과가 얼마나 드문 일인가?”를 따지는 것입니다. 관측된 값이 너무 극단적이라면, 그 가설을 그대로 믿는 것은 불합리하다는 결론에 도달할 수 있습니다.

이때 검정통계량(test statistic)은 관측값을 수치로 요약한 것이며, 그 수치가 귀무가설이 옳다고 가정했을 때의 기준 분포에서 얼마나 멀리 떨어져 있는지를 측정합니다.

1 유의수준과 판단 기준

유의수준(significance level, α)은 우리가 얼마나 작은 확률까지를 우연으로 받아들일 준비가 되어 있는지를 나타냅니다.
즉, 귀무가설이 옳을 때에도 우리가 그 가설을 기각할 수 있는 “허용된 오판의 확률”입니다.
가장 일반적으로 쓰이는 유의수준은 5%입니다. 이는 다음과 같이 해석할 수 있습니다:

“귀무가설이 참인 상황에서, 100번 중 5번 이하로 관측될 정도로 드문 결과가 나왔다면, 우리는 그 가설을 기각하겠다.”

이는 Type I error의 허용 가능성을 명시적으로 설정하는 것이기도 합니다.

2 p-value란 무엇인가?

p-value는 관측된 통계량보다 극단적인 결과가
귀무가설 하에서 실제로 관측될 확률(probability)을 의미합니다.

p-value는 본질적으로 “이런 결과가 정말 우연히 나올 수 있었을까?”라는 질문에 대한 답입니다.
p-value가 작을수록, “이건 우연으로 보기엔 너무 극단적인 결과야”라는 판단에 가까워지며,
그 값이 우리가 설정한 유의수준 \(\alpha\)보다 작다면 귀무가설을 기각할 수 있습니다.

예를 들어, 어떤 정책 변화 이후 실업률이 크게 줄어들었고, 이에 대한 분석 결과 p-value가 0.003이라면,
이는 “그 정도의 변화가 단순한 우연으로 발생할 확률은 0.3%에 불과하다”는 의미입니다.
만약 유의수준을 5%(0.05)로 설정했다면, 우리는 “정책의 효과가 통계적으로 유의하다”고 판단할 수 있습니다.

3 주의 사항

“95% 신뢰수준의 신뢰구간(confidence interval)”이 의미하는 것은
“무수히 많은 표본을 반복해서 추출했을 때, 그로부터 만들어지는 구간 중 약 95%는 진짜 모수를 포함할 것이다”라는 것이지, 지금 눈앞에 있는 이 구간이 참값을 포함할 확률이 95%라는 뜻은 아닙니다.

확률은 미래의 사건에 대한 가능성이고,
신뢰도는 통계적 절차의 일관성과 반복 안정성에 관한 수치입니다.

한편, p-value가 0.0001이라고 해서, 그것이 반드시 “실질적으로 중요한 결과”를 의미하는 것은 아닙니다.
아주 큰 표본에서는 미세한 차이도 쉽게 통계적으로 유의해질 수 있기 때문입니다.
반대로, 표본이 작다면 실제로 중요한 차이도 통계적으로 유의하지 않을 수 있습니다.

그러므로, 통계적 유의성(statistical significance)실질적 중요성(practical significance)은 항상 구분되어야 하며, 해석은 문제의 맥락과 의사결정의 목적에 따라 달라져야 합니다.