활용목적에 따른 데이터의 질

데이터는 본래 침묵합니다. 데이터를 말하게 하는 것은, 우리가 던지는 질문과 그것을 해석하려는 태도입니다. 그러나 질문이 아무리 정교하더라도, 데이터 자체가 왜곡되어 있다면 그 결론 역시 신뢰하기 어렵습니다. 따라서 데이터 분석에서 가장 먼저 점검해야 할 것은, 우리가 다루는 데이터가 “무엇을 반영하고 있고, 무엇을 누락하고 있는가”입니다.

1 표본은 모집단을 대표하는가?

통계학은 관찰할 수 있는 일부(표본)를 바탕으로 전체(모집단)에 대해 추론하는 학문입니다. 이때 표본은 반드시 모집단의 속성을 잘 반영해야 합니다. 이것이 대표성(representativeness)입니다.

예를 들어, 특정 시간대의 대도시 중심부에서 시민들의 정치 성향을 조사한 결과를 전체 유권자의 의견이라 주장하는 것은 무리일 수 있습니다. 이처럼 대표성 오류가 생기면, 아무리 정밀한 분석이라 해도 결론은 잘못된 방향으로 흐를 수 있습니다.

더불어 선택 편향(selection bias)도 자주 발생하는 오류입니다. “지방도로에서 고속도로보다 보행자 사고가 많다”는 통계가 그 예입니다. 겉으로는 지방도로가 더 위험한 듯 보이지만, 고속도로에는 보행자 자체가 거의 존재하지 않는다는 사실을 간과하면 판단을 그르칠 수 있습니다.

이러한 오류를 줄이기 위해 통계학은 무작위 표본추출(random sampling)을 기본 전제로 삼습니다. 모든 대상이 동등한 확률로 선택될 수 있어야 하며, 경우에 따라서는 층화 표본추출(stratified sampling) 같은 보정 기법도 함께 사용합니다. 단지 많은 양의 데이터를 확보하는 것보다, 제대로 뽑은 적절한 표본을 확보하는 일이 더 중요합니다.

c.f. Median Voter Theorem: 유권자의 선호가 1차원 선형 공간에 배열될 수 있는 특수한 경우, 다수결 제도 하에서는 중간 위치에 있는 유권자(중위 유권자, median voter)가 선호하는 정책이 선택됩니다. 이는 분포의 중앙값이 LAD (Least Absolute Deviation) 기준의 최적해이기 때문입니다. 두 개 정당이 경쟁하는 양당제(bipartisanship)에서는 양당 모두 중도 유권자층의 선호를 중심으로 정책을 조정하게 됩니다. 대표성 개념이 수학적으로 정당화되는 한 예입니다.

2 생존한 것만을 보면, 진실은 보이지 않는다

통계적 분석에서 자주 간과되는 또 하나의 오류는 생존 편의(survivorship bias)입니다. 이는 성공하거나 계속 존재하는 사례만을 대상으로 분석하는 경우 발생합니다.

예컨대 30년간 주식시장에 존재한 기업들의 수익률을 분석할 때, 현재까지 상장된 기업만을 기준으로 삼는다면 실제보다 훨씬 우수한 성과가 관측될 수 있습니다. 그러나 이미 도태된 수많은 기업들은 결과에서 빠져 있고, 이는 전체 시장의 평균 성과를 왜곡시킬 수 있습니다.

1980년대에는 비재벌 기업이 상대적으로 높은 수익률을 보였지만, 2000년대 이후로는 재벌 계열사가 시장을 지배하며 성과 우위를 고착화하는 흐름을 보입니다.

3 데이터는 수치일 뿐, 해석은 맥락이다

수치는 객관적으로 보이지만, 해석은 언제나 주관적 판단과 연결되어 있습니다. 현직 프리미엄 현상처럼, 통계적으로 반복되는 경향이 있다고 해서 그것이 ’좋은 현상’이라는 결론으로 바로 이어지는 것은 아닙니다. 유권자의 만족, 단순한 인지도 효과, 지역별 정치 성향, 시대적 분위기 등의 요인은 통계값 속에 명시되어 있지 않기 때문입니다.

마찬가지로, “소득이 높을수록 행복도 높다”는 명제 역시 절대적으로 성립하지 않습니다. 일정 수준 이상의 소득을 넘어서면, 행복은 더 이상 단순한 함수처럼 증가하지 않습니다. 이런 경향은 문화권에 따라 달라지기도 하며, 시대적 맥락에 따라 다르게 해석됩니다.

요컨대, 통계적 수치를 해석할 때에는 언제나 수치 바깥에 존재하는 구조적 요인들을 함께 고려해야 합니다. 통계학은 수치 그 자체보다는, 그 수치가 어디서 왔고, 어디까지 말할 수 있는지를 따져보는 태도를 함께 요구합니다.

4 시간의 흐름은 데이터를 바꾼다

횡단면 자료가 ‘여럿을 동시에 보는’ 것이라면, 시계열 자료는 ‘하나를 계속해서 지켜보는’ 것입니다. 경제지표, 주가, 물가지수처럼 시간에 따라 변화하는 데이터를 분석할 때 우리는 시계열적 사고를 필요로 합니다.

시계열 분석에서는 다음과 같은 개념들이 기본이 됩니다:

  • 시차(lag)1: 과거의 값이 현재에 영향을 미치는 시간적 거리입니다. 예를 들어, \(Y_{t-1}\)은 이전 시점의 \(Y\) 값을 의미합니다.

  • 자기회귀모형(AR model)2: 현재의 값을 과거의 값들로 설명하는 모델로, \(Y_t = \phi_1 Y_{t-1} + \phi_2 Y_{t-2} + \cdots + \varepsilon_t\) 같은 형태를 가집니다.

  • 정상성(stationarity)3: 시계열이 시간에 따라 평균, 분산, 공분산 구조가 일정하게 유지되는 성질입니다. 정상성이 확보되어야 예측의 안정성과 신뢰성이 유지됩니다.

예를 들어, 한 국가의 GDP가 꾸준히 상승한다면, 그 흐름은 장기 추세(long-term trend)4로 이해할 수 있습니다. 반면 경기순환이나 고용률의 등락처럼 주기적 구조(cyclic pattern)5를 보이는 변수는 일정한 파동을 따를 수 있습니다.

시계열 자료의 분석에서는 또 하나 중요한 개념이 바로 변동성(volatility)6입니다. 이는 주로 금융 시장에서 사용되는 개념으로, 수익률이 시간에 따라 얼마나 흔들리는지를 나타냅니다. 변동성이 클수록 불확실성은 커지지만, 역설적으로 옵션(option) 상품의 가치는 이러한 불확실성 덕분에 커지기도 합니다. 콜옵션의 가격은 자산가격이 급등할 때 크게 상승하며, 이처럼 비대칭적 payoff 구조를 가지는 파생상품에서는 변동성 자체가 중요한 분석 변수로 작용합니다.

마지막으로, 시계열 자료는 여러 가지 구조적 컴포넌트로 구성됩니다. 이에는 추세(trend), 주기(cycle), 계절성(seasonality)이 있으며, 각각은 경제 현상에서 고유한 리듬을 형성합니다. 이러한 구조를 부드럽게 추정하기 위해 통계학에서는 헨더슨 가중치 스무딩(Henderson weight smoothing)7 같은 경험적 기법을 사용하기도 합니다. 이 방법은 과거와 현재의 관측값을 가중 평균하여, 급격한 단기 변동성을 제거하고 장기적인 흐름을 보다 선명하게 파악하는 데 도움을 줍니다.

5 표본은 어디서 끊겼는가?

마지막으로 주의해야 할 것은 결측 표본(truncated sample)의 문제입니다. 이는 표본 자체가 관측 대상의 일정 조건을 만족하는 일부만으로 구성되어 있을 때 발생합니다. 예를 들어, 범죄 사건 분석에서 특정 전과 기록이 있는 사람들만을 분석 대상으로 삼는다면, 우리는 ’범죄자’가 아닌 ’적발된 범죄자’만을 분석하게 됩니다. 마치 도박에서 딴 기억만 기억하는 도박꾼처럼, 통계 분석도 무엇이 관측되었고 무엇이 누락되었는가를 명확히 해야만 합리적 해석이 가능할 것입니다.

Footnotes

  1. Lag는 시계열 데이터에서 변수의 과거 값을 기준 시점에 연결해 주는 시간 차이를 의미합니다. 예: \(Y_{t-1}, Y_{t-2}\) 등.↩︎

  2. Autoregressive (AR) model은 시계열 변수의 현재 값이 자신의 과거 값들의 선형 결합으로 표현되는 모형입니다.↩︎

  3. Stationarity는 시계열의 평균, 분산, 자기상관 등이 시간에 따라 변하지 않는 성질로, 예측 가능성을 높이는 전제입니다. \(\mathbb{E}[Y_t] = \mu\) (불변인 평균), \(\mathrm{Var}(Y_t) = \sigma^2\) (불변인 분산), \(\mathrm{Cov}(Y_t, Y_{t+h}) = \gamma(h)\) (시차 \(h\)에만 의존하는 공분산)을 만족하는 경우를 말합니다. 이를 weak stationarity 또는 covariance stationarity라고 부릅니다.↩︎

  4. Long-term trend는 데이터가 시간에 따라 보여주는 지속적인 증가 또는 감소의 방향성을 의미합니다. \(Y_t = \tau_t + \varepsilon_t\) 와 같이 추세(trend) 성분 \(\tau_t\)와 오차 \(\varepsilon_t\)로 분해했을 때, \(\tau_t\)의 증가 혹은 감소 방향성을 의미합니다. 보통 선형 함수 \(\tau_t = \alpha + \beta t\)나 비선형 함수(예: 로그, 지수)를 사용해 모델링됩니다.↩︎

  5. Cyclic function은 경기에 따라 반복적으로 나타나는 파동, 즉 비정기적이나 반복되는 상승과 하강의 패턴을 설명합니다. \(f(t + T) = f(t) \quad \text{for all } t\) 를 만족하는 함수를 의미합니다. 이는 정상적인 주기적 반복 구조를 가지는 이상적인 형태이며, 실제 시계열에서는 완전한 주기성은 드물고, 비정기적이나 유사한 파동이 반복되는 순환(cycle) 형태로 관측됩니다. 경기순환, 생산지수, 실업률 등의 경제지표가 이에 해당합니다.↩︎

  6. Volatility는 시간에 따른 수익률의 변화폭을 나타내며, 리스크의 정량적 지표로 사용됩니다. \(\sigma_t = \sqrt{\mathbb{E}[(r_t - \mu)^2]}\) 또는 시계열 모델에서는 \(\mathrm{Var}(r_t | \mathcal{F}_{t-1})\)처럼 조건부 분산 개념으로 확장됩니다. GARCH 등 변동성 모형에서는 시간이 지남에 따라 \(\sigma_t^2\)가 동적으로 변화합니다.↩︎

  7. Henderson weight smoothing은 특정 시점 주변의 값을 가중 평균하여 노이즈를 제거하고, 데이터의 장기 추세를 부드럽게 표현하는 기법입니다. \(\hat{Y}_t = \sum_{k=-h}^{h} w_k Y_{t+k}\) 의 형태를 취합니다. Henderson은 13항 또는 23항 등으로 구성된 경험적 필터를 제안하였으며, 추세 성분의 부드러운 변화를 포착하는 데 유용합니다.↩︎

Reuse