외생성 (exogeneity) vs. 내생성 (endogeneity)

Exogeneity vs. Endogeneity in Short-Run Models 왜 단기적 분석에서는 인과 추론이 어려운지 그리고 그 어려움을 해결하기 위한 통계적 접근들

1 단기 구조 분석

장기적으로 두 변수 간에 공적분관계평균 회귀(mean-reversion) 구조가 존재할 수 있더라도,
단기에서는 수많은 외생적 충격(external shocks), 정책 개입, 비대칭 정보, 기대의 변화 등으로 인해 두 변수 사이의 관계는 훨씬 더 복잡하고 변동성이 높습니다.

따라서 단기 분석의 주요 목적은, 어떤 변수의 변화가 다른 변수의 단기적 변동을 얼마나 예측하거나 설명할 수 있는가? 이며, 이 과정에서 반드시 구분되어야 할 개념이 바로 외생성(exogeneity)내생성(endogeneity)입니다.

2 외생성(Exogeneity): 변수는 “설명자”인가?

외생변수(exogenous variable)란, 주어진 모형의 구조나 오차항과 확률적으로 독립인 설명변수입니다.
즉, \(X\)\(Y\)를 설명하는 모형

\[Y = \beta_0 + \beta_1 X + \varepsilon\]

에서 \(X\)가 외생적이라는 말은 다음을 의미합니다:

\[\mathrm{Cov}(X, \varepsilon) = 0\]

이 조건이 충족되면, \(\beta_1\)은 인과적 해석이 가능한 계수로 받아들여질 수 있으며,
최소제곱추정량(OLS estimator)은 편향(bias) 없이 추정됩니다.

3 내생성(Endogeneity): 설명자 속에 결과가 섞여 있다

반대로, 만약 \(\mathrm{Cov}(X, \varepsilon) \neq 0\)이라면,
\(X\)내생적(endogenous)입니다. 이 경우, 회귀계수 \(\beta_1\)은 다음의 이유로 편향되고 일관되지 않은 추정치를 산출합니다:

  • Omitted variable bias: \(X\)\(Y\) 모두에 영향을 주는 제3의 변수 \(Z\)가 모형에 누락됨
  • Measurement error: \(X\)가 부정확하게 측정되었을 경우
  • Simultaneity: \(X\)\(Y\)가 서로 동시에 영향을 미치는 경우 (동시 방정식 시스템)
  • Reverse causality: 사실은 \(Y \to X\)의 방향성이 더 강한데, \(X \to Y\)로 잘못 가정함

예를 들어, 교육(\(X\))과 임금(\(Y\))의 관계를 회귀모형으로 분석할 때,
교육 수준과 임금 수준 모두에 영향을 미치는 부모의 소득이나 지역적 요인이 빠졌다면, \(X\)는 내생적입니다.

4 내생성 문제의 해결: 도구변수 (Instrumental Variable)

통계학에서는 내생성 문제를 해결하기 위해 여러 방법이 사용되며, 가장 대표적인 것은 도구변수(instrumental variable, IV)입니다.
도구변수 \(Z\)는 다음의 조건을 만족해야 합니다:

  1. Relevance: \(\mathrm{Cov}(Z, X) \neq 0\) (설명변수 \(X\)와 상관됨)
  2. Exogeneity: \(\mathrm{Cov}(Z, \varepsilon) = 0\) (오차항과는 무관함)

도구변수를 사용하면, 내생적 설명변수 \(X\)\(Z\)로 “대체하여”,
편향되지 않은 계수 추정을 할 수 있습니다. 이는 2단계 최소제곱법(2SLS)을 통해 구현됩니다.

5 현실의 단기 구조는 대부분 내생적이다

실제 경제 데이터에서 대부분의 설명변수는 정책적 반응, 기대의 변화, 시장 피드백 효과로 인해
모형의 오차항과 상관될 가능성이 높습니다. 따라서 현실에서는 다음과 같은 대안이 논의됩니다:

  • Control function approach: 오차항의 추정 값을 변수로 넣어 bias 조정
  • Panel data fixed-effects: 관측 불가능한 고정 특성 제거
  • Difference-in-differences: 시간 전후의 변화량 비교

하지만 어떤 방법을 사용하더라도, 내생성의 존재를 명확히 인식하고 그로 인한 추정 오류를 보정하려는 시도가 통계적 추론의 전제입니다.

개념 정의 수학적 조건 결과
Exogeneity 설명변수가 오차와 독립 \(\mathrm{Cov}(X, \varepsilon) = 0\) OLS는 일관되고 편향 없음
Endogeneity 설명변수가 오차와 상관 \(\mathrm{Cov}(X, \varepsilon) \neq 0\) OLS는 편향되고 일관되지 않음
IV Solution 대체 변수 \(Z\) 사용 \(Z \perp \varepsilon\), \(Z\) 관련성 2SLS를 통해 추정 가능