통계적 추론 (Statistical Inference)
빈도주의자 vs. 베이지언: 서로 다른 통계철학
- 빈도주의자 (frequentist)들의 주요 가정 : 외생성 \(E(\epsilon | x)=0\) 과 \(\epsilon \sim N(0,\sigma^2)\)
- 베이지언 (Bayesian)들의 주요 가정 : Joint distribution \(f(x,y)\)
1 세대 간 소득 이동성 측정 문제
우리는 종종 “부모 세대의 소득 수준이 자녀 세대의 소득 수준에 얼마나 영향을 미칠까?” 와 같은 질문에 답하고자 합니다. 이는 사회의 기회균등 수준을 보여주는 중요한 지표인 ‘세대 간 소득 이동성(intergenerational income mobility)’ 측정 문제입니다. 통계학은 이러한 질문에 답하기 위해 데이터를 분석하는 방법론을 제공합니다.
예를 들어, 많은 가구의 부모 소득(\(X\))과 자녀 소득(\(Y\)) 데이터를 수집했다고 가정해 봅시다. 우리의 주된 관심은 \(X\)와 \(Y\) 사이의 관계, 특히 \(X\)가 1단위 변할 때 \(Y\)가 평균적으로 얼마나 변하는지 (\(β_1\))를 측정하는 것일 수 있습니다. \(β_1= 0\) 이라면 완전한 이동성(부모 소득과 자녀 소득 무관), \(β_1=1\) 이라면 완전한 고착(부모 소득이 그대로 자녀 소득 결정)을 시사할 수 있습니다. 이 \(β_1\) 값을 데이터로부터 어떻게 추정하고 그 추정치의 불확실성은 어떻게 평가할까요? 여기에 대해 통계학은 크게 두 가지 다른 접근 방식을 제시합니다. 바로 빈도주의(Frequentist)와 베이지안(Bayesian) 통계 철학입니다. 두 철학은 데이터로부터 결론을 도출하는 기본적인 방법론과 그 결과의 해석 방식에서 차이를 보입니다.
2 데이터의 질과 통계적 추론에 대한 철학
어떤 통계 철학을 따르든, 데이터로부터 의미 있는 결론을 얻기 위해서는 데이터 자체의 질이 중요합니다. 특히 다음 두 가지 개념은 대부분의 통계적 추론에서 필수적인 기반이 됩니다.
실현된 결과의 편향되지 않은 표본 (Unbiased Sample of Realized Outcomes):
- 우리가 분석하는 데이터(표본)는 관심을 갖는 더 큰 집단(모집단)이나 데이터 생성 과정을 편향 없이 잘 대표해야 합니다. 즉, 표본 추출 과정에서 특정 특성을 가진 개체들이 과도하게 혹은 과소하게 포함되지 않아야 합니다. 예를 들어, 소득 이동성 연구에서 고소득층 부모 가구만 표본에 포함된다면, 전체 사회의 이동성을 제대로 반영하지 못할 것입니다.
- 표본이 편향되지 않아야 그 분석 결과를 모집단 전체나 일반적인 현상으로 일반화할 수 있습니다. 이는 빈도주의든 베이지안이든 추론의 타당성을 위한 기본 전제입니다.
사건/관측치의 독립성 (Independence of Events/Observations):
- 한 관측치(예: 한 가구의 소득 정보)의 결과가 다른 관측치의 결과에 영향을 주지 않는다는 가정입니다. 수학적으로는 \(P(A∩B)=P(A)P(B)\) 또는 \(P(A∣B)=P(A)\)로 표현됩니다.
- 무작위 표본 추출(Random Sampling)은 종종 관측치 간 독립성을 확보하기 위한 방법입니다. 많은 통계 모델(예: 단순 회귀분석)은 계산과 해석의 편의를 위해 관측치들이 서로 독립적이라고 가정합니다(i.i.d. 가정의 ‘i’). 만약 특정 지역 가구들이 서로 영향을 주고받는다면 (예: 지역 경제 효과), 독립성 가정이 깨질 수 있으며 분석 시 이를 고려해야 합니다. 독립성 가정의 타당성은 두 관점 모두에서 중요하게 검토되어야 합니다.
데이터의 질이 확보되었다는 전제 하에,
데이터를 해석하고 결론을 도출하는 방식에 대한 체계적인 접근법을 통계 철학(Statistical Philosophy) 이라고 할 수 있습니다. 이는 다음을 포함하는 포괄적인 시스템입니다.
- 확률의 정의와 해석 방식
- 모수(Parameter)의 본질에 대한 관점
- 데이터와 사전 지식의 역할
- 통계적 추론(추정, 가설 검정 등)의 목표와 방법론
- 결과(예: 신뢰구간, p-값 등)의 의미 해석
현대 통계학에는 크게 두 가지 지배적인 통계 철학이 있습니다: 빈도주의와 베이지안.
3 빈도주의 철학 (Frequentist Philosophy)
- 핵심 아이디어: 통계적 절차(procedure)의 장기적 성과(long-run performance) 에 초점을 맞춥니다. 즉, 사용하는 추정 방법이나 검정 방법이 동일한 실험을 무한히 반복했을 때 평균적으로 얼마나 잘 작동하는지에 관심을 둡니다.
- 확률 해석: 확률을 장기적 빈도(long-run frequency) 로 해석합니다.
- 모수(Parameter): 알려지지 않은 고정된 상수(fixed unknown constant) 로 간주합니다. 예를 들어, 소득 이동성 예시에서 전체 모집단의 실제 이동성 계수 \(β_1\)은 우리가 정확히 알지 못하지만, 어떤 고정된 참값을 가진다고 가정합니다.
- 모델링 접근 및 가정:
- 주로 데이터의 조건부 분포 \(P(Y∣X)\) 또는 조건부 기댓값 \(E(Y∣X)\)를 모델링하는데 집중합니다. 소득 이동성 예시에서는 자녀 소득 \(Y\)를 부모 소득 \(X\)로 설명하는 모델, 예를 들어 선형 회귀 모델 \(Y=β_0+β_1X+ϵ\) 을 가정할 수 있습니다.
- 주요 목표: 표본 데이터 \((x_i,y_i)\)를 이용하여 고정된 참값 \(β_1\)을 점 추정(point estimate) 하고, 그 추정치의 정확성(precision) 을 평가하며(예: 표준오차 계산), 모수에 대한 가설을 검정하고 (예: \(H_0:β_1=0\) 검정), 모수가 포함될 가능성이 높은 구간을 추정(신뢰구간 계산)하는 것입니다.
- 통계적 방법: 최소제곱법(Ordinary Least Squares, OLS)을 사용하여 \(β_1\) 을 추정 (estimate)하고, 추정된 계수 \(\hat{\beta_1}\)의 표준오차(Standard Error)를 계산할 수 있습니다. 이를 바탕으로 t-검정(t-test)을 수행하여 \(\hat{\beta_1}\)이 통계적으로 유의미한지(0과 다른지) 판단하고, \(\hat{\beta_1}\)에 대한 신뢰구간을 계산합니다.
- 주요 가정 (예: 선형 회귀 모델): 모델 추론의 타당성을 위해 다음과 같은 가정들이 필요할 수 있습니다.
- 선형성: E(Y∣X)가 X에 대해 선형 관계, i.e. \(E(Y∣X)=β_0+β_1X\).
- 외생성 (Exogeneity): \(E(ϵ∣X)=0\). 즉, 설명 변수 X(부모 소득)가 오차항 ϵ(자녀 소득에 영향을 미치는 X 외의 모든 요인)과 상관관계가 없어야 합니다. 이 가정이 성립해야 \(\hat{\beta_1}\)이 \(β_1\)의 불편향 추정량(unbiased estimator)이 됩니다.
- 추가적 가정이지만 완화될 수 있는 등분산성 (Homoscedasticity): \(Var(ϵ∣X)=σ^2\). 오차항의 분산이 X 값에 관계없이 일정해야 합니다. 이 가정이 깨지면 OLS 추정량은 여전히 불편향이지만 효율적이지 않으며, 표준오차 계산이 잘못될 수 있습니다. c.f. Heteroscedasticity? GLS
- 추가적 가정이지만 완화될 수 있는 정규성 (Normality): \(ϵ∼N(0,σ^2)\). 오차항이 정규분포를 따른다는 가정은 주로 작은 표본에서의 가설 검정이나 신뢰구간의 정확한 분포 계산을 위해 필요합니다. (큰 표본에서는 중심극한정리에 의해 자동적으로 완화될 수 있습니다)
- 결과 해석:
- 점 추정량 \(\hat{\beta}_{1}\): 표본으로부터 계산된 \(β_1\)의 가장 가능성 높은 값.
- p-값 (p-value): 귀무가설 H0 (예: \(β_1=0\))이 사실이라고 가정했을 때, 현재 표본에서 얻은 결과(예: \(\hat{\beta_1}\)) 또는 그보다 더 극단적인 결과를 얻을 확률입니다. p-값이 유의수준(예: 0.05)보다 작으면 귀무가설을 기각합니다. 이는 귀무가설이 틀렸다는 직접적인 확률이 아닙니다.
- 신뢰구간 (Confidence Interval): 예를 들어 95% 신뢰구간은 “만약 우리가 동일한 방식으로 표본을 무수히 많이 뽑아 각각 신뢰구간을 계산한다면, 그 구간들 중 약 95%가 실제 참값 \(β_1\)을 포함할 것”이라는 절차의 신뢰도를 의미합니다. 우리가 계산한 특정한 구간 (예: [0.3, 0.5])이 참값 \(β_1\)을 포함할 확률이 95%라고 말할 수는 없습니다.
4 베이지안 철학 (Bayesian Philosophy)
- 핵심 아이디어: 확률을 사용하여 모수에 대한 불확실성을 측정하고 업데이트합니다. 사전 지식(prior belief)을 명시적으로 통합하고, 데이터를 통해 이를 갱신하여 사후 지식(posterior belief)을 얻는 과정을 중시합니다.
- 확률 해석: 확률을 믿음의 정도(degree of belief) 로 해석합니다.
- 모수(Parameter): 고정된 상수가 아니라 확률 변수(random variable) 로 간주합니다. 즉, 모수 \(β_1\) 자체가 확률 분포를 가진다고 생각합니다. 우리는 데이터 분석을 통해 이 분포를 학습하고 업데이트합니다.
- 모델링 접근 및 믿음 업데이트:
- 관심 있는 모든 것(데이터와 모수)의 결합 확률 분포(joint probability distribution) 를 명시적으로 설정하는 것에서 시작합니다. 이는 보통 모수 \(θ=(β_0,β_1,σ^2)\)에 대한 사전 분포 \(P(θ)\) 와, 주어진 모수 값에서 데이터 \((X,Y)\)가 관측될 확률인 가능도 함수 \(P(Y∣X,θ)\) 를 곱하여 정의됩니다 \(P(Y,X,θ)=P(Y∣X,θ)P(θ)\).
- 가능도 설정: \(P(Y∣X,θ)\)는 데이터 생성 과정을 기술합니다. 예를 들어, \(\bar{Y}\)가 \(N(β_0+β_1 \bar{X},σ^2)\) 분포를 따른다고 가정할 수 있습니다. 이는 빈도주의의 오차항 가정과 유사하지만, 베이지안에서는 이를 데이터가 모수에 대해 제공하는 정보의 원천으로 해석합니다.
- 사전 분포 설정: \(P(θ)\)는 데이터를 보기 전에 모수 \(θ=(β_0,β_1,σ^2)\)에 대해 가지고 있는 사전 지식이나 믿음을 확률 분포로 표현한 것입니다. 예를 들어, 소득 이동성 계수 \(β_1\)은 0과 1 사이의 값을 가질 가능성이 높고, 음수는 아닐 것이라는 믿음을 사전 분포에 반영할 수 있습니다 (예: Beta 분포나 절단된 정규분포 사용). 사전 지식이 없다면, 데이터의 영향을 최대화하기 위해 무정보적(non-informative) 또는 약정보적(weakly informative) 사전 분포를 사용하는 것이 일반적입니다.
- 베이즈 정리를 통한 업데이트: 사전 분포와 가능도 함수를 베이즈 정리를 이용해 결합하여 사후 분포(Posterior Distribution) \(P(θ∣Y,X)\) 를 계산합니다. \(P(θ∣Y,X)=P(Y∣X)P(Y∣X,θ)P(θ)∝P(Y∣X,θ)P(θ)\)
여기서 \(P(Y∣X)=∫P(Y∣X,θ)P(θ)dθ\)는 정규화 상수입니다. 이 사후 분포는 데이터를 관찰한 후 모수 θ에 대한 업데이트된 믿음을 나타냅니다. 이것이 베이지안 믿음 업데이트 과정의 핵심입니다. - 통계적 방법: 사후 분포가 계산되면(종종 MCMC와 같은 수치적 방법 사용), 이 분포로부터 필요한 모든 정보를 추출합니다. 예를 들어, \(β_1\)의 사후 평균(posterior mean)이나 중앙값(median)을 점 추정치로 사용할 수 있고, 사후 분포의 특정 구간(예: 2.5% 분위수 ~ 97.5% 분위수)을 계산하여 \(β_1\)에 대한 95% 신뢰구간(Credible Interval)을 얻습니다. 또한 사후 분포를 이용하여 \(P(β_1>0∣Y,X)\) 와 같이 특정 가설에 대한 확률을 직접 계산할 수 있습니다.
- 결과 해석:
- 사후 분포 P(θ∣Y,X): 데이터와 사전 정보를 고려했을 때, 모수 θ의 가능한 값들에 대한 우리의 업데이트된 믿음의 분포입니다.
- 점 추정치 (예: 사후 평균): 사후 분포의 중심 경향을 나타내는 값으로, 데이터를 고려한 후 모수의 가장 그럴듯한 값으로 해석될 수 있습니다.
- 신뢰구간 (Credible Interval): 예를 들어 95% 신뢰구간 [0.3, 0.5]는 “우리가 가진 데이터와 모델을 바탕으로 했을 때, 실제 \(β_1\) 값이 0.3과 0.5 사이에 있을 확률(믿음의 정도)이 95%” 라는 직접적인 확률적 해석을 제공합니다.
- 가설에 대한 직접 확률: \(P(β_1>0∣Y,X)\) 와 같이 관심 있는 가설이 사실일 확률을 사후 분포로부터 직접 계산하여 제시할 수 있습니다.
5 비교 요약
특징 | 빈도주의 (Frequentist) | 베이지안 (Bayesian) |
---|---|---|
철학 핵심 | 절차의 장기적 성과 보장 | 확률을 이용한 믿음의 측정 및 업데이트 |
확률 의미 | 장기적 빈도 (객관적) | 믿음의 정도 (주관적/논리적) |
모수(β1) | 고정된 미지의 상수 | 확률 분포를 갖는 확률 변수 |
주요 입력 | 데이터 (가능도) | 데이터 (가능도) + 사전 분포 |
주요 출력 | 점 추정치, 표준오차, p-값, 신뢰구간 | 사후 분포, 점 추정치, 신뢰구간, 가설 확률 |
결과 해석 (구간) | 특정 절차로 계산 시, 95% 확률로 참값을 포함하는 구간 생성 | 계산된 특정 구간이 95% 확률로 참값을 포함한다는 믿음 |
요구 사항 | 모델 가정 (외생성, 동분산성 등) 충족 중요 | 사전 분포 설정 필요, 모델 가정 및 가능도 함수 명시 |
세대 간 소득 이동성(\(β_1\))을 추정할 때, 빈도주의는 \(β_1\)의 ‘가장 좋은’ 추정치를 찾고 그 추정치가 얼마나 정밀한지, 그리고 \(β_1=0\) 가설을 기각할 수 있는지에 집중합니다. 반면 베이지안은 \(β_1\)의 가능한 값들에 대한 우리의 믿음을 사후 분포로 나타내고, 이 분포를 바탕으로 \(β_1\)이 특정 범위(신뢰구간)에 있을 확률이나 특정 가설(예: \(β_1>0\))이 맞을 확률을 직접적으로 제시합니다. 두 접근법 모두 장단점이 있으며, 문제의 성격과 분석가의 목적에 따라 적합한 방법을 선택하거나 상호 보완적으로 활용할 수 있습니다.
5.1 모델의 한계와 결과 해석의 주의점
지금까지 빈도주의와 베이지안이라는 두 가지 통계 철학을 통해 세대 간 소득 이동성(β1)을 추정하고 해석하는 방법을 살펴보았습니다. 그러나 어떤 철학을 따르든, 우리가 얻은 통계적 추정치(예: 빈도주의의 \(\hat{\beta}_{1}\) 또는 베이지안의 \(β_1\)에 대한 사후 분포)가 현실 세계의 ‘진짜’ 세대 간 소득 이동성 메커니즘을 완벽하게 반영한다고 생각해서는 안 됩니다.
이는 특히 사회과학적 현상을 다룰 때 더욱 중요합니다. 세대 간 소득 이동성 예시를 다시 생각해 봅시다. 우리가 고려한 단순 선형 모델 \(Y=β_0+β_1X+ϵ\) 은 부모 소득(\(X\))이 자녀 소득(\(Y\))에 미치는 평균적인 연관성을 포착하려 합니다. 하지만 현실은 훨씬 복잡합니다. 자녀의 소득에는 부모 소득 외에도 수많은 요인이 영향을 미칩니다. 예를 들면 다음과 같습니다.
- 교육 수준: 부모 및 자녀의 교육 수준과 질
- 가정 환경: 부모의 양육 방식, 가풍, 문화 자본
- 사회적 자본: 부모의 인적 네트워크, 사회적 지위
- 지역 환경: 거주 지역의 학교, 커뮤니티, 노동 시장 조건
- 유전적 요인: 지능, 재능 등 부모로부터 유전되는 특성
- 건강, 운, 차별, 경제 상황 변동, 측정 오차 등
이러한 요인들 중 상당수는 관찰되지 않거나 모델에 포함되지 않았을 가능성이 높습니다. 더 심각한 문제는, 이 요인들 중 일부가 부모 소득(X)과 자녀 소득(Y) 모두에 영향을 미치는 교란 요인(confounding factor) 으로 작용할 수 있다는 점입니다. 예를 들어, 부모의 높은 교육 수준은 부모 소득(\(X\))을 높이는 동시에, 자녀에게 더 나은 교육 환경을 제공하여 자녀 소득(\(Y\))에도 긍정적인 영향을 줄 수 있습니다. 만약 모델에서 부모의 교육 수준을 통제하지 않는다면, 우리가 추정한 \(\hat{\beta}_1\)은 순수한 부모 소득의 영향뿐 아니라 부모 교육 수준의 효과까지 일부 포함하게 되어, \(β_1\)의 크기가 과대 또는 과소 추정될 수 있습니다. 이는 빈도주의 모델의 외생성 가정(\(E(ϵ∣X)=0\))이 깨지는 주요 원인이 됩니다.
이러한 현실을 염두에 둘 때, 통계학자 조지 박스(George E. P. Box)의 유명한 말을 떠올리는 것이 도움이 됩니다:
“All models are wrong, but some are useful.”
(모든 모델은 틀렸다, 하지만 어떤 것들은 유용하다.)
이 말의 의미는 다음과 같습니다.
- 모든 모델은 틀렸다: 통계 모델은 복잡한 현실 세계를 단순화(simplification) 한 것입니다. 현실의 모든 복잡성을 완벽하게 포착하는 모델은 존재하지 않습니다. 따라서 우리가 사용하는 어떤 모델이든 현실을 정확히 반영하지 못한다는 점에서 ’틀렸다’고 할 수 있습니다. 소득 이동성 단순 모델도 마찬가지입니다.
- 어떤 것들은 유용하다: 모델이 현실과 다를 수 있다고 해서 모델이 아예 가치가 없는 것은 아닙니다. 모델이 유용한(useful) 경우는 다음과 같을 수 있습니다.
- 현상 이해의 출발점: 단순한 모델이라도 복잡한 현상을 이해하기 위한 좋은 시작점을 제공할 수 있습니다.
- 데이터 요약 및 설명: 특정 데이터셋 내에서 변수들 간의 관계를 간결하게 요약하고 설명하는 데 유용할 수 있습니다 (\(\hat{\beta}_1\)은 \(X\)와 \(Y\)의 관찰된 연관성을 나타냅니다).
- 예측: 모델의 한계를 인지한다면, 특정 조건 하에서 결과를 예측하는 데 사용될 수 있습니다.
- 점진적 개선: 단순 모델의 한계를 인식하고, 교란 요인을 통제하는 더 정교한 모델(예: 다중 회귀분석, 도구 변수법, 구조 방정식 모형 등)로 발전시켜 나갈 수 있습니다.
결론적으로, 빈도주의든 베이지안이든 통계적 추론 결과(p-값, 신뢰구간, 사후 확률, 신뢰구간 등)를 해석할 때는 항상 다음을 명심해야 합니다.
- 결과는 모델에 의존적이다: 모든 통계적 결론은 분석에 사용된 특정 모델과 그 가정 하에서 도출된 것입니다.
- 모델은 현실의 근사치이다: 사용된 모델이 현실을 얼마나 잘 근사하는지에 따라 결과의 현실 설명력이 달라집니다. 교란 요인 통제가 미흡하거나 모델 설정이 잘못되었다면, 통계적으로 유의미한 결과(예: 작은 p-값, 0을 포함하지 않는 신뢰구간)를 얻었더라도 그것이 실제 인과관계나 현상의 본질을 반영한다고 단정하기 어렵습니다.
- 비판적 사고가 필수적이다: 통계 분석가는 자신이 사용하는 모델의 가정을 명확히 이해하고, 그 가정이 현실적으로 타당한지, 통제되지 못한 교란 요인은 없는지 끊임없이 비판적으로 검토해야 합니다.
따라서 세대 간 소득 이동성 \(β_1\)에 대한 빈도주의적 또는 베이지안적 추정 결과를 제시할 때는, 이것이 특정 모델과 데이터에 기반한 근사치이며, 수많은 잠재적 교란 요인의 영향을 받을 수 있음을 명확히 밝히고 해석에 주의를 기울여야 합니다. 이것이 통계 모델을 책임감 있게 사용하는 자세일 것입니다.