경제데이터 분석준비
Preparing for Economic Data Analysis
통계학에서 분석은 곧 계산이 아닙니다. 계산은 언제나 준비된 구조를 바탕으로 이뤄지며, 그 구조의 이해가 없다면 아무리 정확한 계산이라도 의미 있는 결론에 도달할 수 없습니다. 따라서 본격적인 분석에 앞서, 우리가 다룰 데이터의 구조와 유형, 그리고 그 데이터를 어떻게 다룰 것인지에 대한 이해가 선행되어야 합니다.
1 데이터는 행(row)과 열(column)로 구성된 표
경제 데이터를 다룰 때 가장 기본이 되는 형식은 데이터 테이블 (data table, data matrix, dataframe)입니다. 여기서 행은 하나의 관측값(개별 사례, 시점, 개체)을, 열은 변수(variable)를 의미합니다. 예컨대 어떤 나라의 매월 GDP, 실업률, 물가 등을 모은 데이터라면, 각 행은 ‘월별 관측치’, 열은 ’경제 변수’들이 됩니다.
중요한 것은 이 행과 열의 수에 관한 구조적 조건입니다. 통계적으로 유의미한 추론이 가능하려면, 행의 수(n)가 열의 수(p)보다 충분히 많아야 합니다. 이는 단순한 숫자의 문제가 아니라, 식별성(identification)과 관련된 수학적 조건이기 때문입니다. 이를 수학적으로 생각해보면, 열은 변수의 개수이고, 우리가 구하고자 하는 미지수의 수입니다.
반면 행은 우리가 가진 독립적인 정보, 즉 방정식의 수에 해당합니다. 연립 1차방정식을 풀 때 방정식의 수가 미지수보다 적다면 해를 유일하게 결정할 수 없듯이, 통계에서도 데이터가 충분하지 않으면 변수 간 관계를 식별해낼 수 없습니다. 따라서 “데이터가 많다”는 것은 단지 행이 많다는 뜻이 아니라, 변수에 비해 정보가 충분히 많고, 독립적이며, 잡음보다 신호가 강하다는 전제를 담고 있는 것입니다.
2 자료의 구조: 횡단면, 시계열, 그리고 패널
통계 데이터는 수집 방식과 시간 개념의 유무에 따라 자료 구조(data structure)가 다릅니다. 이 구조를 이해하는 일은 분석 방법을 선택하는 데 결정적인 영향을 줍니다.
첫째, 횡단면 자료(cross-sectional data)는 같은 시점에서 여러 개체(사람, 국가, 기업 등)에 대해 수집한 자료입니다. 예를 들어, 2023년 현재 서울시 1,000가구의 소득을 조사한 자료는 전형적인 횡단면 자료입니다.
둘째, 시계열 자료(time-series data)는 하나의 개체에 대해 시간의 흐름에 따라 관측한 자료입니다. 예컨대 한국은행의 월별 소비자물가지수나 분기별 GDP 통계는 시계열 자료에 해당합니다.
셋째, 패널 자료(panel data)는 여러 개체를 일정한 시간 동안 반복적으로 추적하여 관측한 자료입니다. 패널 자료는 횡단면 자료와 시계열 자료의 장점을 결합한 형태로, 개체 간 이질성(heterogeneity)과 시간에 따른 동태성(dynamic change) 모두를 반영할 수 있어 구조적 분석에 매우 유용합니다.
대표적인 패널 데이터셋으로는 다음과 같은 것들이 있습니다:
- CRSP: 미국 주식시장 상장기업의 월별·일별 재무 및 수익률 자료를 포함하는 금융 시계열 중심의 패널 데이터
- PSID (Panel Study of Income Dynamics): 미국 가계의 소득, 고용, 건강, 교육 등 다양한 정보를 장기적으로 추적한 사회경제 패널
- 한국노동패널조사 (KLIPS): 한국노동연구원이 수행하는 조사로, 개인과 가구 단위의 노동시장, 소득, 교육, 건강 정보 등을 지속적으로 기록한 대표적 국내 패널 데이터
이러한 패널 자료는 단면에서는 보이지 않던 개체별 이질성과 시간적 구조를 식별하는 데 중요한 통찰을 제공하며, 고정효과(fixed effect), 동태 패널 모델(dynamic panel model) 등 다양한 통계 기법의 적용이 가능합니다.
한편, 단순한 형태의 pooled panel data는, 시간 구조를 고려하지 않고 서로 다른 시점의 데이터를 하나로 묶어 횡단면처럼 다루는 방식입니다. 예컨대 2020년과 2021년의 가구소득 데이터를 단순히 하나의 테이블로 병합하여 분석하는 것이 이에 해당합니다. 이는 시계열적 상관 구조나 개체 고정 효과를 무시하므로 분석의 전제와 해석에 유의해야 합니다.
3 자료의 측정척도: 명목, 순서, 비율
데이터는 수치로 보이지만, 그 수치가 실제로 어떤 의미를 담고 있는지에 따라 해석 방식이 달라집니다. 이것이 바로 측정 척도(scale of measurement)의 문제입니다.
먼저, 명목척도(nominal scale)는 숫자가 단지 ‘이름표’ 역할만 하는 경우입니다. 예를 들어, 성별을 1(남성), 2(여성)으로 표시해도, 이 숫자에 수학적 연산 의미는 없습니다. 단지 범주를 구분하는 데 쓰일 뿐입니다.
다음으로, 순서척도(ordinal scale)는 숫자에 순서가 부여된 경우입니다. 예를 들어 ’성적 등급’을 1등급, 2등급, 3등급으로 나눈다면, 1이 2보다 우수함을 의미하긴 하지만, 1등급과 2등급 사이의 차이가 2등급과 3등급 사이의 차이와 같다고 보장할 수는 없습니다.
마지막으로, 비율척도(ratio scale)는 숫자가 ‘간격’뿐 아니라 ‘배율’의 의미도 가지며, 절대적 0점(zero point)이 정의되어 있습니다. 키, 몸무게, 재산, 점수 등은 모두 비율척도로 측정되며, 0은 ’없음’을 의미합니다. 예를 들어 180cm는 90cm의 정확히 두 배이고, 재산이 0이면 정말로 ‘없는’ 상태입니다.
이처럼 척도의 종류에 따라 우리가 적용할 수 있는 수학적 연산과 통계 기법이 달라지기 때문에, 데이터의 숫자가 무엇을 뜻하는지부터 묻는 일이 통계학의 출발점이 됩니다.
4 경제 데이터를 구할 수 있는 곳
경제통계 분석을 위해 사용할 수 있는 신뢰할 만한 데이터는 여러 곳에서 제공됩니다.
통계청(KOSIS)은 인구, 가구, 고용, 물가, 소득, 산업 등 다양한 범주의 국가통계를 제공합니다.
한국은행(ECOS)은 금융·경제 지표, 국민계정, 국제수지, 통화량 등 거시지표를 중심으로 데이터를 제공합니다.
이 외에도 세계은행(World Bank), IMF, OECD 등 국제기구에서도 양질의 시계열 및 단면 데이터를 구할 수 있습니다. 데이터의 접근성과 투명성은 경제학 연구뿐 아니라 공공 정책의 설계에도 큰 영향을 미칩니다.
5 데이터를 다루는 도구
데이터 분석에는 여러 도구가 쓰이지만, 사용 목적과 데이터 양에 따라 적합한 도구는 달라집니다.
가장 보편적으로 쓰이는 도구는 여전히 엑셀(Excel)입니다. 직관적이고 간편하지만, 수식 추적이 어렵고 대용량 분석에는 부적합하다는 점에서 한계도 분명합니다. 이에 비해 구글 시트(Google Sheets)는 무료이며, 간단한 시각화와 공유가 용이하다는 점에서 장점이 있습니다.
보다 본격적인 분석을 원하는 경우에는 파이썬(Python)의 판다스(Pandas) 라이브러리를 추천할 수 있습니다. Pandas는 대규모 자료의 정제, 그룹 분석, 결측치 처리 등 다양한 기능을 제공하며, 재현성과 자동화 측면에서도 장점이 큽니다.
통계학을 배우는 이유는 ’엑셀을 능숙하게 다루기 위해서’가 아니라, 어떤 도구를 쓰든 올바른 분석 구조를 설계하고 해석할 수 있도록 훈련되기 위함입니다.