AI 기초 통계학
Intro to Economic Data Analysis
경제통계 분석 입문
우리는 “외국인 직접투자가 증가하면 경제성장률도 상승할까?” 혹은 “광고를 하면 실제로 매출이 늘어날까?” 같은 질문에 자주 직면합니다. 이처럼 명백한 답을 내리기 어려운 문제에 대해 보다 합리적으로 사고하고 판단하기 위한 도구가 바로 통계학입니다. 통계학은, 불완전하고 잡음 섞인 데이터로부터 일정한 결론을 도출할 수 있도록 도와주는 방법론(methodology) 입니다.
그런데 여기서 말하는 결론이란 무엇일까요? 통계학의 궁극적 목적은 단순히 숫자를 계산하거나 도표를 만드는 것이 아닙니다. 우리가 관찰한 데이터가 어떤 가설을 지지하는지, 아니면 그것을 반박하는지를 정량적으로 판단할 수 있는 근거를 마련하는 것이 바로 통계학의 역할입니다.
예를 들어, 광고 캠페인 전후의 매출 데이터를 비교하면서 “광고가 효과가 있었다”고 주장하고 싶다고 가정해 봅시다. 이 주장을 통계학적으로 입증하려면 먼저 몇 가지 질문을 해결해야 합니다. 광고의 영향을 측정하기 위해 어떤 기간의 매출을 사용할지, 동일한 시기 다른 마케팅 요인은 없었는지, 그리고 단순한 계절 요인에 의한 변화는 아닌지를 분명히 해야 합니다.
또 다른 예로, “노동시장에서 여성에 대한 차별이 존재했는가?”라는 질문도 살펴볼 수 있습니다. 이 질문 역시 간단해 보이지만, 실질적으로 분석하기 위해서는 차별의 정의, 분석 대상이 되는 산업군, 분석 시기의 설정, 그리고 성별 이외에 소득에 영향을 줄 수 있는 다른 변수들(예: 경력, 학력 등)을 고려해야 합니다. 즉, 통계적 분석이 가능하려면 먼저 개념의 정제와 변수의 정의가 선행되어야 합니다.
통계학은 이러한 문제들을 세 가지 층위에서 접근합니다. 첫째는 기술 통계학(descriptive statistics)으로, 주어진 데이터를 요약하고 구조를 파악하는 데 목적이 있습니다. 둘째는 추론 통계학(inferential statistics)으로, 전체 모집단에 대한 결론을 내리기 위해 표본을 분석합니다. 마지막으로 확률 모형(probabilistic model)은 이러한 표본과 모집단 사이의 관계를 수학적으로 설명하는 이론적 기반입니다. 예컨대, 우리가 모집단의 평균을 추정하려 한다면, 단순한 표본 평균이 그 역할을 대신할 수 있는 이유는 확률이론에서 나온 대수의 법칙이나 중심극한정리 같은 정리에 근거하기 때문입니다.
더불어, 통계학은 단순히 정보를 요약하거나 모형을 세우는 데 그치지 않고, 데이터 분석 과정에서의 두 가지 상반된 태도를 구분하도록 요구합니다. 바로 탐색(exploration)과 활용(exploitation)입니다. 데이터를 탐색하는 단계에서는 그래프나 기초 통계량을 마음껏 살펴보면서 다양한 가설을 상상할 수 있습니다. 그러나 어떤 분석 결과를 바탕으로 실제 정책을 시행하거나 투자를 결정하는 것처럼 ’결정’을 내리는 순간에는, 분석의 전제와 그 한계에 대해 매우 엄격하게 검토해야 합니다. 탐색은 자유롭게 하되, 활용은 조심스럽게 해야 한다는 말입니다.
그렇다면 통계학이 유용하다는 것은 무엇을 의미할까요? 그것은 곧 우리가 실제 세계의 모호함을 명확하게 측정할 수 있도록 도와주는 구조화된 사고 도구를 제공한다는 것입니다. 현실의 문제들은 대부분 모호합니다. 그러나 이 모호함을 아예 다루지 않거나 부정확하게 처리하느니, 오히려 명확한 가정 위에서 근사적으로 사고하는 것이 더 합리적일 수 있습니다.
모든 모형은 틀렸다. 다만, 몇몇 모형은 유용하다.
잘못된 모형을 정밀하게 푸는 것보다, 정확한 모형을 근사적으로 푸는 것이 낫다.
이러한 인식이 통계학의 출발점이며, 합리적 사고를 위한 훈련의 첫 걸음입니다.
목차 (Contents)
- 통계 데이터 (Statistical Data)
- 경제지표 (Economic indicators)
- 경제데이터 분석준비
- 활용목적에 따른 데이터의 질
- 부록-무작위 표본추출법 (Random sampling)
- 데이터 탐색 (Exploration): 데이터를 요약하고, 눈으로 보는 힘
- 1D Statistics and Plots
- 2D Relationship
- 확률 - 데이터와 가설의 연결고리
- 수학적 확률 vs. 통계적 확률
- 함수로서의 확률변수 (random variable): 확률분포, 확률밀도함수.
- 대수의 법칙 (Law of Large numbers)
- 중심극한정리 (Central Limit Theorem): 모집단 vs 표본. 표본평균의 분포. 신뢰도.
- 데이터 활용 (Exploitation)
- 단기 - 외생성 (exogeneity) vs. 내생성 (endogeneity): 경제 데이터로 인과 추론이 어려운 이유
- 중장기 - 인과관계 (Granger causality) vs. 공적분관계 (co-integration)
- 통계적 추론 (Statistical Inference) - 빈도주의자 vs. 베이지언
- 빈도주의자 (frequentist)들의 주요 가정 : 외생성 \(E(\epsilon | x)=0\) 과 \(\epsilon \sim N(0,\sigma^2)\)
- 베이지언 (Bayesian)들의 주요 가정 : Joint distribution \(f(x,y)\)
- 통계적 학습 (Statistical Learning) - Supervised vs. Unsupervised
- 부록 - 베이지안 통계학과 응용
- Model Parameter Estimation and Statistical Hypothesis
- Multivariate Regression Model
- Estimation Method - from Frequentist perspective
- Estimation Method - from Bayesian perspective
- 통계적 가설 검정 (Hypothesis test)
- 통계적 가설 검정의 오류: Type I and II error
- 유의수준, 통계량, p-value
- 두 집단 평균 차이 검정
- 여러 집단을 한꺼번에 비교