중회귀모형 - 빈도주의자 접근

직교 투영과 점추정의 논리

선형 회귀모형은 수학적으로 단순하지만, 그 이면에는 명확한 철학적 전제가 존재합니다.
빈도주의자는 ’한 번 주어진 모집단’과 ’반복 가능한 표본추출’이라는 두 가지 전제를 바탕으로,
관측된 데이터로부터 고정된 모수(parameter)를 추정하는 접근을 취합니다.
회귀모형에서는 이 고정된 모수가 바로 회귀계수 \(\beta\)입니다.

회귀모형에서 가장 단순한 형태는 다음과 같습니다:

\[Y = X\beta + \varepsilon, \quad \varepsilon \sim \text{mean-zero}\]

여기서 \(Y\)\(n \times 1\) 벡터, \(X\)\(n \times p\) 행렬이며, 각 행은 한 관측치를 나타냅니다.
오차항 \(\varepsilon\)\(Y\)에 포함된 설명되지 않는 구성요소이며, \(X\)와는 상관되지 않는다는 전제를 둡니다.

빈도주의자의 추론 방식은 매우 명확합니다.
데이터는 우연히 관측된 결과이지만, 그 뒤에 있는 \(\beta\)는 고정된 값이라고 전제하며,
이 고정된 \(\beta\)를 가장 합리적인 방식으로 추정하려고 합니다.

그렇다면, 어떤 방식이 ’합리적인 방식’일까요?

빈도주의자는 일반적으로 오차항의 제곱합이 최소가 되는 cost function을 가정하고 \(\beta\)를 추정합니다. 즉, 다음 문제를 푸는 것이 목적입니다:

\[\hat{\beta} = \arg\min_{\beta} \|Y - X\beta\|^2\]

이 문제는 기하학적으로 다음과 같은 의미를 갖습니다.
\(Y\)\(\mathbb{R}^n\)의 벡터이며, \(X\)의 열공간(column space of \(X\))에 직교(projection)되는 점이 바로 \(\hat{Y} = X\hat{\beta}\)입니다. 이때 오차 벡터 \(e = Y - X\hat{\beta}\)\(X\)의 열공간에 수직입니다. 즉, \[X^\top (Y - X\hat{\beta}) = 0\]

이라는 직교 조건이 바로 OLS 추정량의 정의 조건입니다.
이 조건을 정리하면 바로 우리가 익숙하게 알고 있는 정규방정식(normal equation)이 됩니다: \[\hat{\beta} = (X^\top X)^{-1} X^\top Y\]

이 계산 방식은 순전히 기하학적 정리에서 출발합니다. 모수의 분포에 대한 어떤 가정도 없이, 오로지 관측값 \(Y\)\(X\)의 선형 조합으로 잘 설명될 수 있도록 만든 것입니다. 이러한 점에서 빈도주의적 회귀는 회귀계수 \(\beta\)의 설명력을 최대화하는 방향으로 잔차를 최소화하는 구조’를 우선시하는 접근이라고 할 수 있습니다.

OLS 추정량의 평균과 분산을 계산해 보면, \(\varepsilon\)가 평균 0이고 분산 \(\sigma^2 I\)를 갖는다는 조건 하에 \(\hat{\beta}\)는 다음과 같은 성질을 가집니다:

이러한 결과는 Gauss-Markov 정리에 의해 보장되며, 빈도주의자는 이 구조를 전제로
\(\hat{\beta}\)라는 단일 값, 즉 점추정치(point estimate)에 주된 관심을 둡니다.

하지만 이 추정값의 ’정확성’은 여전히 표본의 크기와 구조에 의존합니다. 표본이 클수록 \(\hat{\beta}\)는 실제 \(\beta\)에 가까워지며, 작은 표본일수록 불확실성이 커지게 됩니다. 이 불확실성은 이후 신뢰구간(confidence interval)이나 가설 검정(hypothesis testing)으로 표현됩니다.

이러한 구조는 빈도주의자에게 있어 모형이란 ’현실의 불확실한 일부를 가장 잘 설명해 줄 수 있는 단일한 요약값을 구하는 절차’이며, 그 절차는 오로지 반복가능한 데이터 구조와 수학적 정당성 위에서만 정당화될 수 있다는 철학을 따릅니다.