확률변수 (random variable)
확률변수는 숫자가 아니라 확률공간 위에 정의된 함수입니다.
확률은 사건에 대해 부여되며, 확률변수는 추상적 사건을 구체적 수치로 변환하는 역할을 합니다.
1 Probability space의 구조
확률이 정의되기 위한 수학적 공간은 Probability space로 구성되며, 이는 다음과 같은 세 요소의 집합입니다: \((\Omega, \mathcal{F}, \mathbb{P})\)
- \(\Omega\)는 sample space: 가능한 모든 결과들의 집합입니다. 예: bullish, bearish, stagnant market의 세 가지 시장 상태.
- \(\mathcal{F}\)는 sigma-algebra (event space): 부분집합들로 구성된 \(\Omega\)의 집합이며, 우리가 “사건(event)”이라 부를 수 있는 것들의 체계입니다.
- \(\mathbb{P}\)는 probability measure: \(\mathcal{F}\)에 정의된 함수로, 각 event에 확률을 할당합니다.
이 구조에서 사건 \(A \in \mathcal{F}\)는 “시장이 bullish”과 같이 참인지 거짓인지 판단 가능한 조건에 해당합니다.
2 Event와 Filtration
Event는 sample space의 부분집합입니다. 예를 들어, \[A = \{\omega \in \Omega: \text{market is bullish or stagnant} \}\] 와 같이 정의할 수 있습니다.
시장 정보가 시간에 따라 누적된다고 가정하면, 시간 \(t\)까지의 모든 관측 가능한 정보의 집합을 \(\mathcal{F}_t\)라고 표기합니다. 이러한 정보의 축적 구조 \({\mathcal{F}_t}\)는 filtration이라 불리며, 확률적 정보가 시간의 흐름에 따라 점진적으로 드러나는 구조를 반영합니다.
2.1 Random variable는 함수
Random variable \(X\)는 다음과 같은 함수입니다: \[X: \Omega \rightarrow \mathbb{R}\]
즉, 각 가능한 결과 \(\omega \in \Omega\)에 대해, 그에 상응하는 수치 \(X(\omega)\)를 반환하는 함수입니다. 예를 들어,
- \(\Omega = {\text{bullish}, \text{bearish}, \text{stagnant}}\)
- \(X(\omega) = \text{monthly return under market state } \omega\) 라면, 각 시장 상태에 따라 수익률이 결정됩니다.
이때 중요한 점은 확률변수는 확률을 직접적으로 가지는 대상이 아니라, 확률이 정의된 공간 위에 정의된 함수라는 점입니다. 확률은 여전히 event에 대해 정의되며, \(X\)는 그 event를 수치로 변환하는 역할을 합니다.
3 Discrete vs. Continuous: 확률변수의 정의역
3.1 Discrete sample space
\(\Omega\)가 유한하거나 countable한 경우, 즉 시장이 bullish 또는 bearish와 같이 명확히 구분될 수 있는 경우, 확률변수 \(X\)는 다음과 같은 구조로 해석됩니다:
- Probability mass function (PMF): \(p(x) = \mathbb{P}(X = x)\) 확률변수가 특정 값 \(x\)를 가질 확률입니다. 예를 들어,
- \(X(\text{bullish}) = 0.06\)
- \(X(\text{bearish}) = -0.04\)
- Cumulative distribution function (CDF): \(F(x) = \mathbb{P}(X \leq x)\) 확률변수가 주어진 수 이하일 누적 확률입니다. 이는 항상 non-decreasing이며, \(\lim_{x \to -\infty} F(x) = 0\), \(\lim_{x \to +\infty} F(x) = 1\)을 만족합니다.
3.2 Continuous sample space
\(\Omega\)가 실수 전체 등 연속적인 결과 공간일 경우, PMF는 의미가 없으며 대신 확률밀도함수(probability density function)를 사용합니다.
- Probability density function (PDF): \(f(x): \text{a function such that } \mathbb{P}(a \leq X \leq b) = \int_a^b f(x)\, dx\) 개별 값에 대한 확률은 0이며, 구간의 확률만이 의미를 가집니다.
- CDF는 여전히 다음과 같이 정의됩니다: \(F(x) = \int_{-\infty}^x f(t)\, dt\)
PDF \(f(x)\)는 확률 그 자체가 아니라 밀도(density)이며, \(\int_{-\infty}^{\infty} f(x)\, dx = 1\) 을 만족해야 합니다.
다음 절에서는 이러한 확률변수가 대규모 표본 속에서 어떻게 수렴하고, 정규성으로 전개되는지를 탐색합니다.