중회귀모형 도입
회귀모형은 단지 회귀계수를 계산하는 수단이 아닙니다. Predictive or Explanatory
1 예측(Prediction) vs. 설명(Attribution)
통계적 회귀모형을 설계할 때, 입력변수 \(X\)와 결과변수 \(Y\)의 시간적 관계는
모형이 “미래 예측을 위한 것인지”, 아니면 “현재 설명을 위한 것인지”를 결정하는 핵심입니다.
- \(X_{t-1} \to Y_t\): 시간적으로 선행하는 변수를 사용하면, 이는 예측 모형입니다.
- \(X_t \to Y_t\): 동시적 변수를 사용하면, 이는 해석(attribution) 또는 설명적 구조로 간주됩니다.
예를 들어, Risk-based return prediction 모형에서는 lagged variable을 사용해 미래 수익률을 예측합니다. (예: linear factor pricing model) 반면, risk attribution 모형에서는 현재 수익률의 분산을 요인별로 분해합니다.
2 아파트 가격을 예측할 수 있는가?
부동산 시장에서 “아파트 가격은 어떻게 결정되는가?”라는 질문은 누구나 던져볼 수 있지만,
이를 정량적으로 예측하거나 설명하려면 먼저 분석 가능한 모형이 필요합니다.
예를 들어, 다음과 같은 feature (설명변수)들을 고려해 봅시다:
- \(X_1\): 전용면적 (m²)
- \(X_2\): 건축연도 (혹은 노후도)
- \(X_3\): 최근 거래 횟수
- \(X_4\): 역세권 여부 (dummy)
- \(X_5\): 해당 학군 내 평균 수능 점수
이제 이 변수들과 실제 아파트 실거래 가격 \(Y\) 간의 관계를 수식으로 표현하면,
다변량 회귀모형(multiple linear regression)의 형태가 됩니다:
\[Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \cdots + \beta_p X_p + \varepsilon\]
여기서 \(\varepsilon\)은 관측되지 않은 충격(예: 가족 사정, 급매 여부 등)을 나타내는 오차항입니다.
이러한 선형 회귀모형은 계산하기 쉬운 수학적 구조로 시작하지만, \(X\)에 들어가는 변수들은 다음과 같이 변형될 수 있습니다:
- \(X_1^2\), \(X_1^3\)처럼 다항식(polyomial features)
- \(\log X_1\), \(\sqrt{X_1}\) 같은 함수 변환(transformations)
- 두 변수의 곱 \(X_1 \cdot X_2\)와 같은 상호작용 항(interaction terms)
따라서 선형 회귀모형은 형식적으로 선형(linear in parameter)이지만, 입력변수는 비선형적 형태로 변환되어 모형에 들어갈 수 있습니다. 이 경우에도 회귀계수는 직교 투영 조건(orthogonal projection condition) 하에서 추정은 가능합니다. 하지만, 추정이 가능하다고 해서 해석도 가능한 것은 아닙니다.
빈도주의적 회귀에서는, 주어진 설계행렬 \(X\)가 주어졌을 때,
\(Y\)를 \(X\)의 열공간(column space)에 직교 투영(projection)하여 계수를 추정합니다.
이는 기하학적으로 잘 정의된 연산이며, 수학적으로는 일관되게 계산됩니다:
\[\hat{\beta} = (X^\top X)^{-1} X^\top Y\]
그러나 \(X\)의 열들이 변형된 다항식, 로그, 조건부 상호작용항 등으로 구성되어 있다면,
각 \(\hat{\beta}_j\)가 의미하는 바는 매우 불분명해집니다.
예를 들어, \(X = {1, X_1, X_1^2, \log X_2, X_1 \cdot X_2}\)와 같이 구성된 경우,
\(\beta_3\)의 변화가 \(Y\)에 미치는 영향은 \(X_1\)과 \(X_2\)의 수준에 따라 비선형적으로 달라지므로,
그 값 자체가 어떤 해석 가능한 의미를 갖는다고 말하기 어렵습니다.