중심극한정리 (Central Limit Theorem)
투자자 A는 60일간의 일간 수익률을 평균해 보고, 투자자 B는 120일간의 일간 수익률을 평균합니다.
수익률은 매일 불규칙하게 오르내리지만, 그 이동평균은 일정한 경향을 보일 수 있습니다.
여기서 중요한 질문이 제기됩니다:
“단기적 수익률은 무작위로 보이는데, 왜 그 이동평균은 일정한 구조를 따를까?”
이 질문에 대한 답을 제공할 수 있는 조건이 중심극한정리(Central Limit Theorem, CLT)입니다.
1 Classical CLT
확률변수열 \({X_i}\)가 서로 독립이며 동일한 분포(i.i.d.)를 따르고, 각 \(X_i\)에 대해 \(\mathbb{E}[X_i] = \mu,\quad \mathrm{Var}(X_i) = \sigma^2 < \infty\) 일 때, \[\frac{1}{\sqrt{n}} \sum_{i=1}^n \left( \frac{X_i - \mu}{\sigma} \right) \xrightarrow{d} \mathcal{N}(0,1)\]
즉, \(Z_n = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}}\) 처럼 정의된 표준화된 표본평균은
\(n \to \infty\)일 때
표준정규분포 \(\mathcal{N}(0,1)\)로 분포수렴(in distribution)합니다.
1.1 Classical CLT의 작동 조건
중심극한정리(CLT)가 작동하는 수학적 구조의 핵심에는 두 가지 조건이 있습니다:
(1) 확률변수 간 독립성(independence)
(2) 덧셈 연산(additivity)의 대칭성(symmetry)
이 두 조건은 각각 정보의 비중복성과 대칭성의 수렴 구조를 형성합니다.
1.1.1 (1) Independence: 모평균을 추정하기 위한 정보의 비중복성
확률변수열 \({X_i}_{i=1}^n\)이 서로 독립적이다라는 것은
\[\mathbb{P}(X_i \in A \mid X_1, \dots, X_{i-1}) = \mathbb{P}(X_i \in A)\]
임을 의미하며, 이는 각 \(X_i\)가 새로운 정보를 제공함을 뜻합니다.
여기서 ’정보’는 모집단의 평균 \(\mu\)에 대한 추론에 기여하는 요소로 해석됩니다.
만약 \(X_i\)와 \(X_{i-1}\)이 상관되어 있다면, \(X_i\)의 실현은 이미 \(X_{i-1}\)을 통해 부분적으로 예측 가능하며, 이는 정보의 중복입니다. 이처럼 독립성은 각 샘플이 동일한 기여를 하고 있으며, 관측이 서로 겹치지 않는 구조를 보장합니다.
그러나 현실의 시계열 자료(time-series data)에서는 이 독립 조건이 쉽게 깨집니다.
예를 들어 일간 수익률 시계열 \({r_t}\)에서
\[\mathrm{Cov}(r_t, r_{t-1}) \neq 0\]
이면, CLT의 전통적 형태는 적용될 수 없습니다. 대신 다음과 같은 조건 하에서 일반화된 CLT가 성립합니다:
- Strong mixing condition: 시간 간격이 커질수록 상관이 사라지는 약한 의존 구조
- Martingale difference sequence: \(\mathbb{E}[X_t \mid \mathcal{F}_{t-1}] = 0\) 인 조건부 불편성
- Weak dependence: 공분산이 시차에 따라 급속히 감소하는 구조
이러한 조건들은 독립성과 비슷한 추론 성질을 유지하면서도 현실적 의존성을 허용합니다.
1.1.2 (2) 덧셈 연산과 대칭성: 왜 정규분포인가?
중심극한정리는 확률변수들의 합(sum) 또는 평균(mean)에 대해 작동합니다.
여기서 ’합’이라는 연산이 단순한 연산이 아니라, 특정 대수 구조의 성질을 가짐을 주목해야 합니다. 수학적으로 \((\mathbb{R}, +)\)는 Abelian group입니다:
- Closure: \(a, b \in \mathbb{R} \Rightarrow a + b \in \mathbb{R}\)
- Associativity: \((a + b) + c = a + (b + c)\)
- Identity: \(0\)이 항등원 (additive identity)
- Inverse: 각 \(a\)에 대해 \(-a\) 존재
- Commutativity: \(a + b = b + a\)
이 구조에서 중요한 성질은 commutativity입니다. 즉, 덧셈의 순서에 관계없이 결과가 같다는 것인데, 이것이 바로 합의 대칭적 성질을 수학적으로 보장하는 핵심입니다.
이 연산을 반복하면 다음과 같은 일이 발생합니다:
- 각 확률변수 \(X_i\)의 대칭적 noise가 축적되며,
- 평균 중심으로 대칭성이 강화되고,
- 꼬리(tail)의 비대칭성은 약화되며,
- 결국 대칭적 형태의 종곡선 (bell-shaped curve)으로 수렴합니다.
이로부터 정규분포(normal distribution)가 등장합니다.
정규분포는 다음과 같은 성질을 갖습니다:
\[f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)\]
- 이 함수는 평균 \(\mu\)를 중심으로 좌우 대칭입니다.
- 분산 \(\sigma^2\)에 의해 퍼짐 정도가 결정됩니다.
- \(\mu\)와 \(\sigma^2\)라는 두 개의 모수(parameter)만으로 전체 분포가 완전히 규정됩니다.
즉, CLT는 독립된 대칭적 noise들의 평균을 반복할수록, Abelian group의 commutativity와 additive symmetry에 의해 정규분포로 수렴한다는 수학적 귀결입니다.
1.2 Standard deviation vs. Standard error
많은 학습자들이 혼동하는 개념이 standard deviation (SD)와 standard error (SE)입니다.
두 개념은 다음과 같은 차이를 가집니다:
개념 | 정의 | 의미 | 수식 |
---|---|---|---|
SD | \(\sigma\) | 개별 값이 평균에서 얼마나 흩어져 있는가 | \(\sqrt{\mathbb{E}[(X - \mu)^2]}\) |
SE | \(\sigma / \sqrt{n}\) | 표본평균 자체가 얼마나 변동하는가 | \(\mathrm{SD}(\bar{X}_n)\) |
즉, SD는 단일 관측값의 변동성을 측정하고, SE는 표본평균이라는 통계량의 불확실성을 측정합니다.
“표본이 많아질수록 평균은 더욱 정확해진다.”
이것이 바로 CLT의 실질적 의미이며, 그 공식적 표현이 standard error의 감소입니다.
1.3 Classical CLT 활용
CLT가 만들어내는 종착지는 바로 정규분포 \(\mathcal{N}(\mu, \sigma^2/n)\)입니다.
이 분포는 단지 “예쁜 곡선”이 아니라, 다음과 같은 강력한 특징을 가집니다:
- 평균 \(\mu\)를 중심으로 완벽한 대칭성
- 분포가 두 개의 모수 \((\mu, \sigma^2)\)로만 완전히 정의됨
- 68–95–99.7 Rule: 정규분포에서 전체 데이터의 약 68%는 평균으로부터 ±1표준편차, 95%는 ±2표준편차, 99.7%는 ±3표준편차 범위 안에 위치한다는 경험적 법칙입니다.
- 모든 선형 통계량(linear statistic)이 정규분포로 귀속됨
CLT에 의해 복잡한 분포라도 평균을 기준으로 하면 정규 근사 가능하기 때문에,
다양한 추정, 검정, 신뢰구간 설정이 정규분포를 전제로 성립합니다.
정규분포의 중심성을 실용적으로 활용하기 위해서는 표준화(standardization)가 필요합니다: \[Z = \frac{X - \mu}{\sigma}\]
이 과정을 통해 다음이 가능합니다:
- 서로 다른 단위의 변수들 간 비교
- 표준점수(Z-score) 기반의 해석 및 가설 검정
- 예: 대학수학능력시험의 표준점수, IQ, 금융 stress test 등
표준화된 분포는 \(\mathcal{N}(0, 1)\)이 되며, 모든 확률 해석이 상대 위치로 환원됩니다.
- 모집단의 평균 \(\mu\)를 표본평균 \(\bar{X_n}\)을 이용해 추정할 때,
- \(\bar{X_n} \pm z_{\alpha/2} \cdot \mathrm{SE}\) 는 \(1 - \alpha\)의 신뢰수준을 가지는 신뢰구간이 됩니다. 이때 \(z_{\alpha/2}\)는 표준정규분포의 분위수(quantile)이며, CLT가 이 분포를 보장해 주기 때문에 합리적 추론이 가능해집니다.