수학적 확률 vs. 통계적 확률
우리는 일상에서 “확률”이라는 말을 자주 사용합니다. 비가 올 확률, 시험에 붙을 확률, 주식이 오를 확률. 그러나 이 확률이 어디서 오는 것인지를 물으면 쉽게 대답하기 어렵습니다. 어떤 확률은 수학적으로 미리 계산 가능한 반면, 어떤 확률은 데이터를 통해 경험적으로 추정해야 합니다. 이 둘은 통계학에서 각각 수학적 확률(mathematical probability)과 통계적 확률(empirical probability)로 구분됩니다.
1 수학적 확률: 이론적 정의와 계산
수학적 확률은 사건의 결과가 모두 균등하고, 확정된 규칙에 따라 결정되는 경우에 적용됩니다. 동전 던지기, 주사위 굴리기, 카드 섞기 등이 그 예입니다. 이 경우 각 사건의 확률은 전체 가능한 경우의 수에 대한 특정 사건의 경우의 수의 비율로 정의됩니다. 대표적인 예로 다음 두 가지 직관과 어긋나는 확률 문제는 수학적 확률의 개념을 정확히 이해하는 데 도움이 됩니다.
1.1 생일 역설 (Birthday Paradox)
문제: 30명이 있는 방에서 서로 생일이 겹치는 두 사람이 존재할 확률은 얼마일까요?
많은 사람들이 50%보다 낮을 것이라 생각하지만, 실제 계산에 따르면 이 확률은 약 70.6%입니다. 놀랍게도 단지 23명만 있어도 겹칠 확률이 50%를 넘습니다.
왜 그런가요? 핵심은 비교 쌍의 수가 빠르게 증가한다는 점입니다. \(n\)명이 있다면 가능한 쌍의 수는 \(\binom{n}{2} = \frac{n(n-1)}{2}\)입니다. 각 쌍이 서로 다른 생일을 가질 확률을 곱해 나가면, 전체 확률은 빠르게 감소합니다. 결국 문제는 “누군가와 겹칠 확률”이 아니라 “모든 쌍이 다 다를 확률”로 접근해야 합니다. 이 문제는 직관이 통하지 않는 상황에서 수학적 확률이 어떻게 명확한 판단을 제공하는지를 잘 보여줍니다.
1.2 비서 문제 (Secretary Problem)
문제: 한 명의 비서를 채용하려고 \(n\)명의 후보를 순서대로 인터뷰합니다. 한 번 지나친 후보는 다시 선택할 수 없습니다. 이때 최적의 전략과 그 전략을 통해 최고의 후보를 선택할 확률은?
정답은 약 37%, 정확히는 \(\frac{1}{e} \approx 0.368\)입니다.
최적 전략은 다음과 같습니다: 1. 먼저 전체 중 약 \(n/e\)명 (\(\approx 37\%\))을 관찰만 하면서 기록합니다. 2. 그 이후 등장하는 사람 중 관찰한 후보들 중 가장 뛰어났던 사람보다 뛰어난 사람이 나오면 즉시 채용합니다.
이 문제는 사건의 확률을 수학적으로 정의하고 최적 전략을 설계하는 사고의 전형을 보여줍니다. 특히 한 번의 선택이 불확실성을 줄일 수 있다는 점에서 확률적 의사결정의 구조를 잘 설명합니다.
2 통계적 확률: 경험에 기반한 추정
수학적 확률은 사전적으로 계산 가능한 경우에만 적용됩니다. 하지만 현실의 대부분 문제는 규칙이 불분명하거나 경우의 수를 모두 나열할 수 없습니다.
예를 들어:
- 내일 주식시장이 오를 확률
- 특정 지역에서 지진이 발생할 확률
- 백신 접종 후 부작용이 생길 확률
이러한 경우에는 데이터를 관측하고 그 빈도를 바탕으로 확률을 추정해야 합니다. 이것이 바로 통계적 확률(empirical probability)입니다.
통계적 확률은 사건이 여러 번 반복되었을 때 관측되는 빈도로 정의되며, 대수의 법칙(Law of Large Numbers)에 따라 표본의 수가 증가할수록 모집단의 진짜 확률에 가까워집니다.
3 확률과 유용한 정보: 엔트로피의 개념
확률은 불확실성과 정보량이라는 개념과도 밀접하게 연결되어 있습니다. 이때 핵심적인 개념이 바로 정보이론에서의 엔트로피(entropy)입니다.
- “내일 해가 뜰 것이다”라는 정보는 예측 가능성이 높기 때문에 불확실성이 0에 가까우며, 정보량도 거의 없습니다.
- 반면 “내일 서울에서 눈이 올 것이다”라는 정보는 발생 확률이 낮아 불확실성이 크고, 따라서 정보량도 높습니다.
하나의 사건 \(x\)가 발생할 확률이 \(p(x)\)일 때, 정보 이론에서는 해당 사건의 정보량을 다음과 같이 정의됩니다:
\[I(x) = -\log p(x)\]
즉, 확률이 낮을수록 정보량이 크다는 뜻입니다.
그리고 전체 엔트로피는 다음과 같이 정의됩니다:
\[H(X) = -\sum_{x} p(x) \log p(x)\]
이 값은 확률분포가 얼마나 퍼져 있는가, 즉 불확실성이 얼마나 큰가를 수치적으로 나타냅니다.
- 모두가 똑같은 값을 가질 때: 엔트로피는 0 (정보 없음)
- 결과가 고르게 분포할 때: 엔트로피는 최대 (정보 풍부)
엔트로피는 데이터의 구조를 요약할 때도 유용합니다. 예를 들어 뉴스 추천 시스템에서는 사용자의 클릭 확률이 불확실할수록 추천 시스템의 정보이득(information gain)이 높아지며, 이는 더 효과적인 학습 기회를 제공하게 됩니다.