외생성 (exogeneity) vs. 내생성 (endogeneity)
Exogeneity vs. Endogeneity in Short-Run Models 왜 단기적 분석에서는 인과 추론이 어려운지 그리고 그 어려움을 해결하기 위한 통계적 접근들
1 단기 구조 분석
장기적으로 두 변수 간에 공적분관계나 평균 회귀(mean-reversion) 구조가 존재할 수 있더라도,
단기에서는 수많은 외생적 충격(external shocks), 정책 개입, 비대칭 정보, 기대의 변화 등으로 인해 두 변수 사이의 관계는 훨씬 더 복잡하고 변동성이 높습니다.
따라서 단기 분석의 주요 목적은, 어떤 변수의 변화가 다른 변수의 단기적 변동을 얼마나 예측하거나 설명할 수 있는가? 이며, 이 과정에서 반드시 구분되어야 할 개념이 바로 외생성(exogeneity)과 내생성(endogeneity)입니다.
2 외생성(Exogeneity): 변수는 “설명자”인가?
외생변수(exogenous variable)란, 주어진 모형의 구조나 오차항과 확률적으로 독립인 설명변수입니다.
즉, \(X\)가 \(Y\)를 설명하는 모형
\[Y = \beta_0 + \beta_1 X + \varepsilon\]
에서 \(X\)가 외생적이라는 말은 다음을 의미합니다:
\[\mathrm{Cov}(X, \varepsilon) = 0\]
이 조건이 충족되면, \(\beta_1\)은 인과적 해석이 가능한 계수로 받아들여질 수 있으며,
최소제곱추정량(OLS estimator)은 편향(bias) 없이 추정됩니다.
3 내생성(Endogeneity): 설명자 속에 결과가 섞여 있다
반대로, 만약 \(\mathrm{Cov}(X, \varepsilon) \neq 0\)이라면,
\(X\)는 내생적(endogenous)입니다. 이 경우, 회귀계수 \(\beta_1\)은 다음의 이유로 편향되고 일관되지 않은 추정치를 산출합니다:
- Omitted variable bias: \(X\)와 \(Y\) 모두에 영향을 주는 제3의 변수 \(Z\)가 모형에 누락됨
- Measurement error: \(X\)가 부정확하게 측정되었을 경우
- Simultaneity: \(X\)와 \(Y\)가 서로 동시에 영향을 미치는 경우 (동시 방정식 시스템)
- Reverse causality: 사실은 \(Y \to X\)의 방향성이 더 강한데, \(X \to Y\)로 잘못 가정함
예를 들어, 교육(\(X\))과 임금(\(Y\))의 관계를 회귀모형으로 분석할 때,
교육 수준과 임금 수준 모두에 영향을 미치는 부모의 소득이나 지역적 요인이 빠졌다면, \(X\)는 내생적입니다.
4 내생성 문제의 해결: 도구변수 (Instrumental Variable)
통계학에서는 내생성 문제를 해결하기 위해 여러 방법이 사용되며, 가장 대표적인 것은 도구변수(instrumental variable, IV)입니다.
도구변수 \(Z\)는 다음의 조건을 만족해야 합니다:
- Relevance: \(\mathrm{Cov}(Z, X) \neq 0\) (설명변수 \(X\)와 상관됨)
- Exogeneity: \(\mathrm{Cov}(Z, \varepsilon) = 0\) (오차항과는 무관함)
도구변수를 사용하면, 내생적 설명변수 \(X\)를 \(Z\)로 “대체하여”,
편향되지 않은 계수 추정을 할 수 있습니다. 이는 2단계 최소제곱법(2SLS)을 통해 구현됩니다.
5 현실의 단기 구조는 대부분 내생적이다
실제 경제 데이터에서 대부분의 설명변수는 정책적 반응, 기대의 변화, 시장 피드백 효과로 인해
모형의 오차항과 상관될 가능성이 높습니다. 따라서 현실에서는 다음과 같은 대안이 논의됩니다:
- Control function approach: 오차항의 추정 값을 변수로 넣어 bias 조정
- Panel data fixed-effects: 관측 불가능한 고정 특성 제거
- Difference-in-differences: 시간 전후의 변화량 비교
하지만 어떤 방법을 사용하더라도, 내생성의 존재를 명확히 인식하고 그로 인한 추정 오류를 보정하려는 시도가 통계적 추론의 전제입니다.
개념 | 정의 | 수학적 조건 | 결과 |
---|---|---|---|
Exogeneity | 설명변수가 오차와 독립 | \(\mathrm{Cov}(X, \varepsilon) = 0\) | OLS는 일관되고 편향 없음 |
Endogeneity | 설명변수가 오차와 상관 | \(\mathrm{Cov}(X, \varepsilon) \neq 0\) | OLS는 편향되고 일관되지 않음 |
IV Solution | 대체 변수 \(Z\) 사용 | \(Z \perp \varepsilon\), \(Z\) 관련성 | 2SLS를 통해 추정 가능 |