중회귀모형 - 베이지언 접근

사전정보와 분포 추정

빈도주의자는 모수를 고정된 상수로 간주하고, 반복적 표본 추출을 통해 그 값에 접근하려 합니다. 반면, 베이지언 접근은 처음부터 모수(parameter)를 확률변수로 간주합니다. 즉, 모수에 대해 사전 분포(prior distribution)를 설정하고, 실제 데이터를 관측한 후 사후 분포(posterior distribution)를 통해 모수의 불확실성을 정량적으로 표현합니다.

이러한 철학적 전환은 “불확실성”을 다루는 방식 자체를 바꾸어 놓습니다.
빈도주의자에게 불확실성은 표본추출의 산물이라면, 베이지언에게는 모형화의 본질적인 출발점입니다.

1 베이지언 회귀의 기본 구조

다변량 회귀모형은 다음과 같이 표현됩니다:

\[Y = X\beta + \varepsilon, \quad \varepsilon \sim \mathcal{N}(0, \sigma^2 I_n)\]

이때 베이지언은 \(\beta\) 자체를 확률변수로 취급하여, 사전 분포를 다음과 같이 설정합니다:

\[\beta \sim \mathcal{N}(\mu_0, \Sigma_0)\]

이처럼 정규분포를 사전 분포로 선택하는 이유는, 정규 오차 구조와 conjugate pair(켤레쌍)을 이루기 때문입니다. 즉, 정규 likelihood와 정규 prior를 곱한 결과는 다시 정규 분포가 되어 계산이 닫히는(closed-form) 구조를 유지합니다.

이를 기반으로, 사후 분포는 다음과 같은 정규분포가 됩니다:

\[\beta \mid Y, X \sim \mathcal{N}(\mu_n, \Sigma_n)\] where \[\Sigma_n = \left( \Sigma_0^{-1} + \frac{1}{\sigma^2} X^\top X \right)^{-1}, \quad \mu_n = \Sigma_n \left( \Sigma_0^{-1} \mu_0 + \frac{1}{\sigma^2} X^\top Y \right)\]

이러한 표현은 모수 \(\beta\)에 대한 완전한 분포적 추정을 제공하며, 추후 예측(prediction)이나 불확실성 평가에서 강력한 도구가 됩니다.

2 joint distribution의 관점에서 보는 회귀모형

베이지언 회귀는 단지 \(\beta\)의 분포를 추정하는 데 그치지 않고,
모수 \(\beta\)와 데이터 \(Y\) 사이의 결합 확률분포(joint distribution) 전체를 모형화합니다:

\[p(Y, \beta) = p(Y \mid \beta) \cdot p(\beta)\] 여기서 \(p(Y \mid \beta)\)는 likelihood이고, \(p(\beta)\)는 prior입니다.

베이즈 정리는 이 구조를 사후분포로 업데이트하는 절차로 정리합니다: \[p(\beta \mid Y) = \frac{p(Y \mid \beta) \cdot p(\beta)}{p(Y)}\]

이 전체 joint distribution 구조를 이해하면, 나중에 예측분포(prediction for new \(Y^\ast\))나 불확실성 전파(uncertainty propagation)까지 자연스럽게 확장할 수 있습니다.

3 예측 분포와 분포 추정

베이지언 회귀의 또 다른 강점은 미래 관측값에 대한 분포적 예측입니다.
예를 들어, 새로운 입력값 \(x^\ast\)에 대한 \(Y^\ast\)의 예측 분포는 다음과 같습니다:

\[Y^\ast \mid x^\ast, Y, X \sim \mathcal{N}\left( x^{\ast \top} \mu_n, x^{\ast \top} \Sigma_n x^\ast + \sigma^2 \right)\]

여기서 \(x^{\ast \top} \mu_n\)는 예측 평균이고, 뒤의 항은 예측 오차의 분산입니다. 이처럼 베이지언은 추정치를 하나의 숫자(point)로 요약하지 않고, 전체 분포(distribution)를 통해 불확실성을 기술합니다.

3.1 상관관계 구조와 Copula

joint distribution 구조를 이해할 때, 각 변수 간의 결합 구조가 얼마나 유연한지가 핵심이 됩니다. 베이지언 회귀에서는 \(\beta\)의 분포 구조가 사전 분포와 데이터 구조에 의해 결정되며, 공분산 행렬 \(\Sigma_n\)이 변수 간의 의존 관계를 암묵적으로 표현합니다.

하지만 이러한 구조가 항상 선형일 필요는 없습니다. 특히 다변수 분포에서 주변분포(marginal distribution)는 각각 다른 분포를 따르더라도, 이들을 결합하는 구조를 일반화하는 방법이 바로 Copula 함수입니다.

Copula는 \(F_{X,Y}(x,y) = C(F_X(x), F_Y(y))\) 와 같이 결합함수를 분리하는 방식으로,
비정규적이고 비선형적인 상관관계 구조까지도 유연하게 모델링할 수 있는 확장 도구로 사용됩니다.
베이지언 회귀 자체는 정규 구조를 가정하지만, copula 기반 베이지언 모형은 비정규성(non-Gaussianity)까지 포함하는 확장적 구조를 가능하게 합니다.