확률 및 통계
Cheatsheet Content
### 다변수 확률 변수 (Multivariate Random Variables) #### 1. 이변수 확률 변수 (Bivariate Random Variables) - **정의:** 두 개 이상의 확률 변수가 동시에 관찰될 때 이들을 다변수 확률 변수라고 한다. 가장 간단한 형태는 이변수 확률 변수 $(X,Y)$이다. - **결합 확률 질량 함수 (joint pmf - 이산형):** - $P_{XY}(x,y) = P(X=x, Y=y)$ - 조건: $P_{XY}(x,y) \ge 0$, $\sum_x \sum_y P_{XY}(x,y) = 1$ - **예시:** 주사위 두 개를 던져 첫 번째 눈의 수를 X, 두 번째 눈의 수를 Y라 할 때, $P_{XY}(1,1) = 1/36$ - **결합 확률 밀도 함수 (joint pdf - 연속형):** - $f_{XY}(x,y)$ - 조건: $f_{XY}(x,y) \ge 0$, $\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{XY}(x,y) dx dy = 1$ - $P((X,Y) \in A) = \iint_A f_{XY}(x,y) dx dy$ - **예시:** 균일 분포 $f_{XY}(x,y) = \frac{1}{A}$ for $(x,y) \in A$ (A는 2차원 영역) #### 2. 주변 분포 (Marginal Distributions) - 결합 분포에서 한 변수의 정보를 무시하고 특정 변수의 분포만을 보고자 할 때 사용한다. - **이산형 (Marginal pmf):** - $P_X(x) = P(X=x) = \sum_y P_{XY}(x,y)$ - $P_Y(y) = P(Y=y) = \sum_x P_{XY}(x,y)$ - **연속형 (Marginal pdf):** - $f_X(x) = \int_{-\infty}^{\infty} f_{XY}(x,y) dy$ - $f_Y(y) = \int_{-\infty}^{\infty} f_{XY}(x,y) dx$ #### 3. 독립 (Independence) - 두 확률 변수 $X$와 $Y$가 독립이라는 것은 한 변수의 결과가 다른 변수의 결과에 영향을 주지 않는다는 것을 의미한다. - **정의:** $X, Y$가 독립($X \perp Y$)이면, 모든 $x,y$에 대해 다음이 성립한다: - **이산형:** $P_{XY}(x,y) = P_X(x)P_Y(y)$ - **연속형:** $f_{XY}(x,y) = f_X(x)f_Y(y)$ - **판별법:** 결합 함수가 $f_{XY}(x,y) = g(x)h(y)$ 형태로 $x$만의 함수와 $y$만의 함수로 분리 가능하면 $X$와 $Y$는 독립이다. #### 4. 기대값 (Expectation) - **일반적인 함수 $g(X,Y)$의 기대값:** - **이산형:** $E[g(X,Y)] = \sum_x \sum_y g(x,y) P_{XY}(x,y)$ - **연속형:** $E[g(X,Y)] = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x,y) f_{XY}(x,y) dx dy$ - **선형성:** - $E[aX+b] = aE[X]+b$ - $E[aX+bY+c] = aE[X]+bE[Y]+c$ (항상 성립, $X,Y$의 독립성 여부와 무관) - **독립인 경우 $X,Y$에 대한 기대값:** $E[XY] = E[X]E[Y]$ (역은 성립하지 않음) - **예시:** $f_{XY}(x,y) = 2$ for $0 0$) - **연속형 (Conditional pdf):** $f_{X|Y}(x|y) = \frac{f_{XY}(x,y)}{f_Y(y)}$ (단, $f_Y(y) > 0$) - **조건부 기대값 (Conditional Expectation):** - $E[X|Y=y] = \int_{-\infty}^{\infty} x f_{X|Y}(x|y) dx$ (연속형) - $E[X|Y]$는 $Y$에 대한 함수로 나타남. $E[X|Y] = g(Y)$. - **전체 기대값의 법칙 (Law of Total Expectation):** $E[X] = E[E[X|Y]]$ - **예시:** $E[X] = \sum_y E[X|Y=y]P_Y(y)$ (이산형) 또는 $\int E[X|Y=y]f_Y(y) dy$ (연속형) - **전체 분산의 법칙 (Law of Total Variance):** $Var(X) = E[Var(X|Y)] + Var(E[X|Y])$ - 이 두 법칙은 복잡한 기대값이나 분산을 다룰 때 매우 유용하다. #### 6. 공분산 및 상관 계수 (Covariance & Correlation) - 두 확률 변수 $X$와 $Y$가 함께 어떻게 변하는지(선형 관계) 나타내는 지표. - **공분산 (Covariance):** - $Cov(X,Y) = E[(X-E[X])(Y-E[Y])] = E[XY] - E[X]E[Y]$ - **성질:** - 독립이면 $Cov(X,Y)=0$이지만, $Cov(X,Y)=0$이라고 해서 항상 독립인 것은 아니다 (비상관(uncorrelated)은 독립보다 약한 조건). - $Cov(X,X) = Var(X)$ - $Cov(aX+b, cY+d) = ac Cov(X,Y)$ - $Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)$ - $Var(X-Y) = Var(X) + Var(Y) - 2Cov(X,Y)$ - **상관 계수 (Correlation Coefficient):** - $\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} = \frac{Cov(X,Y)}{\sigma_X \sigma_Y}$ - **성질:** - $-1 \le \rho_{XY} \le 1$ - $\rho_{XY} = 1$은 완벽한 양의 선형 관계, $\rho_{XY} = -1$은 완벽한 음의 선형 관계. - $\rho_{XY} = 0$은 선형 관계가 없음을 의미 (비상관). 독립이면 $\rho_{XY}=0$. - **예시:** 중간고사 점수(X)와 기말고사 점수(Y)의 상관 관계. ### 확률 변수 변환 (Transformations) #### 1. 일변수 함수 변환 (Single Variable Function) - 확률 변수 $X$의 pdf $f_X(x)$를 알고 있을 때, $Y=g(X)$의 pdf $f_Y(y)$를 찾는 방법. - **방법:** 1. $Y=g(X)$가 단조 함수(monotonic function)일 때, $X$를 $Y$에 대해 풀어 $x = g^{-1}(y)$를 찾는다. 2. Jacobian (미분) $\frac{dx}{dy}$를 계산한다. 3. $f_Y(y) = f_X(g^{-1}(y)) \left|\frac{dx}{dy}\right|$ 4. Y의 정의역 변화를 고려한다. - **예시:** $X \sim \text{Exp}(\lambda)$, 즉 $f_X(x) = \lambda e^{-\lambda x}$ ($X>0$). $Y=X^2$일 때 $f_Y(y)$ 구하기. - $x = \sqrt{y}$ (왜냐하면 $X>0$이므로 $Y>0$이고 $x$는 양수여야 함) - $\frac{dx}{dy} = \frac{1}{2\sqrt{y}}$ - $f_Y(y) = \lambda e^{-\lambda \sqrt{y}} \left|\frac{1}{2\sqrt{y}}\right| = \frac{\lambda}{2\sqrt{y}} e^{-\lambda \sqrt{y}}$ ($y>0$) #### 2. 다변수 함수 변환 (Multivariable Function) - 결합 확률 변수 $(X,Y)$의 pdf $f_{XY}(x,y)$를 알고 있을 때, 새로운 확률 변수 $(U,V)$ ($U=g_1(X,Y)$, $V=g_2(X,Y)$)의 결합 pdf $f_{UV}(u,v)$를 찾는 방법. - **단계:** 1. 목표: $X,Y$를 $U,V$에 대한 함수로 표현 ($x=h_1(u,v), y=h_2(u,v)$). 2. **야코비안 (Jacobian) 행렬 및 행렬식(determinant) 계산:** $$ J = \det \begin{pmatrix} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v} \\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v} \end{pmatrix} = \frac{\partial x}{\partial u}\frac{\partial y}{\partial v} - \frac{\partial x}{\partial v}\frac{\partial y}{\partial u} $$ 3. **결합 pdf:** $f_{UV}(u,v) = f_{XY}(h_1(u,v), h_2(u,v)) |J|$ 4. 새로운 변수 $U,V$의 정의역을 명확히 한다. - **예시:** $X \sim U(0,1), Y \sim U(0,1)$ 독립. $U=X+Y, V=X-Y$일 때 $f_{UV}(u,v)$ 구하기. - $x = (u+v)/2, y = (u-v)/2$. - $\frac{\partial x}{\partial u} = 1/2, \frac{\partial x}{\partial v} = 1/2, \frac{\partial y}{\partial u} = 1/2, \frac{\partial y}{\partial v} = -1/2$. - $J = (1/2)(-1/2) - (1/2)(1/2) = -1/4 - 1/4 = -1/2$. - $f_{XY}(x,y) = 1$ for $0 ### 부등식 (Inequalities) #### 1. 마르코프 부등식 (Markov's Inequality) - 음이 아닌 확률 변수 $X$ (즉, $P(X \ge 0) = 1$)와 양수 $a > 0$에 대해: $$ P(X \ge a) \le \frac{E[X]}{a} $$ - **설명:** 확률 변수가 특정 값 이상이 될 확률이 그 변수의 기대값과 그 값의 비율보다 작거나 같다는 것을 나타낸다. 변수의 분포를 정확히 몰라도 상한을 추정할 때 유용하다. - **일반화:** $g(x)$가 음이 아닌 증가 함수일 때, $P(g(X) \ge k) \le \frac{E[g(X)]}{k}$. - **예시:** 사람들의 월 소득 평균이 300만원일 때, 월 소득이 900만원 이상인 사람의 비율은 최대 얼마인가? - $X$를 월 소득이라 하면 $E[X]=300$. $P(X \ge 900) \le \frac{300}{900} = \frac{1}{3}$. 즉, 최대 33.3%이다. #### 2. 체비셰프 부등식 (Chebyshev's Inequality) - 임의의 확률 변수 $X$ (평균 $\mu$, 분산 $\sigma^2 0$에 대해: $$ P(|X - \mu| \ge k) \le \frac{\sigma^2}{k^2} $$ - **설명:** 확률 변수 $X$가 평균 $\mu$에서 $k$ 이상 떨어질 확률의 상한을 나타낸다. $k = c\sigma$ ($c>0$)로 표현하면: $$ P(|X - \mu| \ge c\sigma) \le \frac{1}{c^2} $$ - **예시:** 어떤 시험의 평균 점수가 70점, 표준편차가 5점이라고 가정하자. 점수가 60점 이하이거나 80점 이상일 확률은? (평균에서 10점 이상 떨어진 경우) - $k=10$, $\sigma=5$. $P(|X - 70| \ge 10) \le \frac{5^2}{10^2} = \frac{25}{100} = 0.25$. 즉, 확률은 최대 25%이다. #### 3. 옌센 부등식 (Jensen's Inequality) - $g$가 볼록 함수(convex function)이면: $E[g(X)] \ge g(E[X])$ - $g$가 오목 함수(concave function)이면: $E[g(X)] \le g(E[X])$ - **설명:** 기대값의 함수와 함수의 기대값 사이의 관계를 나타낸다. - 볼록 함수: $g''(x) \ge 0$ (예: $x^2, e^x, x^k (k \ge 1)$) - 오목 함수: $g''(x) \le 0$ (예: $\ln x, \sqrt{x}$) - **예시 (볼록 함수):** $g(x) = x^2$은 볼록 함수이므로 $E[X^2] \ge (E[X])^2$. - 이는 분산의 정의 $Var(X) = E[X^2] - (E[X])^2 \ge 0$와 일치한다. - **예시 (오목 함수):** $g(x) = \ln x$는 오목 함수이므로 $E[\ln X] \le \ln(E[X])$. - 이를 통해 산술-기하 평균 부등식(Arithmetic Mean-Geometric Mean Inequality)을 유도할 수 있다. #### 4. 코시-슈바르츠 부등식 (Cauchy-Schwarz Inequality) - 두 확률 변수 $X, Y$에 대해: $$ (E[XY])^2 \le E[X^2]E[Y^2] $$ - **설명:** 두 확률 변수의 곱의 기대값의 제곱이 각 변수 제곱의 기대값의 곱보다 작거나 같다는 것을 의미한다. - **등호 조건:** $Y = cX$ (상수 $c$)일 때 등호가 성립한다. - **선형 대수적 해석:** 두 벡터의 내적의 제곱은 각 벡터 크기의 제곱의 곱보다 작거나 같다. #### 5. 횔더 부등식 (Holder's Inequality) - $X, Y$가 확률 변수이고 $p>1, q>1$이며 $\frac{1}{p} + \frac{1}{q} = 1$일 때: $$ E[|XY|] \le (E[|X|^p])^{1/p} (E[|Y|^q])^{1/q} $$ - **설명:** 코시-슈바르츠 부등식의 일반화 (p=q=2일 때 코시-슈바르츠 부등식이 됨) - **응용:** $L_p$ 노름(norm) 공간에서 중요한 부등식이다. #### 6. 민코프스키 부등식 (Minkowski's Inequality) - $X, Y$가 확률 변수이고 $p \ge 1$일 때: $$ (E[|X+Y|^p])^{1/p} \le (E[|X|^p])^{1/p} + (E[|Y|^p])^{1/p} $$ - **설명:** $L_p$ 공간에서의 삼각 부등식(Triangle Inequality). ### 기타 주제 (Miscellaneous Topics) #### 1. 계층적 혼합 분포 (Hierarchical Mixture Distributions) - 하나의 확률 변수의 분포가 다른 확률 변수에 의해 결정되는 구조. - **핵심:** 전체 기대값의 법칙과 전체 분산의 법칙 활용. - **예시:** 특정 지역의 사과나무에서 수확하는 사과 수 $X$를 모델링하자. - 각 나무의 사과 수 $X_i$는 $P(\lambda)$를 따른다고 생각할 수 있다. - 하지만 나무마다 조건이 달라 $\lambda$ 자체가 확률 변수. 예를 들어, $\lambda \sim \text{Gamma}(\alpha, \beta)$ - 따라서, $X | \lambda \sim \text{Poisson}(\lambda)$ 이고, $\lambda \sim \text{Gamma}(\alpha, \beta)$. - **$E[X]$ 계산:** $E[X] = E[E[X|\lambda]] = E[\lambda] = \alpha\beta$ - **$Var(X)$ 계산:** - $Var(X) = E[Var(X|\lambda)] + Var(E[X|\lambda])$ - $Var(X|\lambda) = \lambda$ (포아송 분포의 분산) - $E[X|\lambda] = \lambda$ (포아송 분포의 기대값) - $Var(X) = E[\lambda] + Var(\lambda) = \alpha\beta + \alpha\beta^2 = \alpha\beta(1+\beta)$ - 이러한 모델은 포아송 분포의 과분산(overdispersion)을 설명할 때 사용될 수 있다. #### 2. 다항 분포 (Multinomial Distribution) - 이항 분포(Binomial Distribution)의 일반화. $n$번의 독립적인 시행에서 $k$개의 상호 배타적인 범주로 결과가 나올 때, 각 범주에 속하는 횟수 $X_1, ..., X_k$의 동시 분포. - 각 시행에서 범주 $i$에 속할 확률을 $p_i$라 하자 ($\sum_{i=1}^k p_i = 1$). $n_i$는 범주 $i$의 횟수. - **pmf:** $P(X_1=n_1, ..., X_k=n_k) = \frac{n!}{n_1! ... n_k!} p_1^{n_1} ... p_k^{n_k}$ (단, $\sum n_i = n$) - **주변 분포:** $X_i \sim \text{Binomial}(n, p_i)$ - **기대값:** $E[X_i] = np_i$ - **분산:** $Var(X_i) = np_i(1-p_i)$ - **공분산:** $Cov(X_i, X_j) = -np_i p_j$ (항상 음수, 왜냐하면 한 범주의 횟수가 증가하면 다른 범주의 횟수는 감소할 가능성이 크기 때문) - **예시:** 설문조사에서 $n$명의 사람이 3개 정당 (A, B, C) 중 하나를 지지한다고 할 때, 각 정당을 지지하는 사람 수의 분포. #### 3. 디리클레 분포 (Dirichlet Distribution) - 베타 분포(Beta Distribution)의 다변수 일반화. $k$개의 확률 $(p_1, ..., p_k)$ 벡터에 대한 연속 확률 분포. 여기서 $p_i \ge 0$ 이고 $\sum_{i=1}^k p_i = 1$. - 매개변수는 $\alpha_1, ..., \alpha_k$ (모두 양수). - **pdf:** $$ f(p_1, ..., p_k; \alpha_1, ..., \alpha_k) = \frac{\Gamma(\sum_{i=1}^k \alpha_i)}{\prod_{i=1}^k \Gamma(\alpha_i)} \prod_{i=1}^k p_i^{\alpha_i-1} $$ - **기대값:** $E[p_i] = \frac{\alpha_i}{\sum_{j=1}^k \alpha_j}$ - **용도:** 다항 분포의 베이즈 추론 시 사후 분포(posterior distribution)로 자주 사용된다 (다항 분포의 켤레 사전 분포). 토픽 모델링 등 머신러닝에서 활용. #### 4. Jacobian 변환의 고급 예시 - **감마 분포와 베타 분포의 관계:** - $X \sim \text{Gamma}(\alpha_1, \beta)$, $Y \sim \text{Gamma}(\alpha_2, \beta)$ 독립일 때, - 새로운 변수 $U = X+Y$, $V = \frac{X}{X+Y}$로 변환하면 - $U \sim \text{Gamma}(\alpha_1+\alpha_2, \beta)$ 이고, - $V \sim \text{Beta}(\alpha_1, \alpha_2)$ 이며, - $U$와 $V$는 독립이다. - **설명:** 두 독립적인 감마 분포 변수의 합은 여전히 감마 분포를 따르고, 두 변수의 비율 형태는 베타 분포를 따른다는 중요한 결과이다. 특히 스케일 매개변수 $\beta$가 동일해야 한다. 이 결과는 베이즈 통계학 등에서 자주 활용된다. #### 5. 모멘트 생성 함수 (Moment Generating Functions, MGF) - $M_X(t) = E[e^{tX}]$. $M_X(0) = 1$. - $E[X^n] = M_X^{(n)}(0)$ (n차 미분 후 $t=0$ 대입) - **독립인 확률 변수의 합:** $X_1, ..., X_n$이 독립이면 $M_{\sum X_i}(t) = \prod M_{X_i}(t)$ - **예시:** $X \sim N(\mu, \sigma^2)$ 이면 $M_X(t) = e^{\mu t + \frac{1}{2}\sigma^2 t^2}$. - $X_1 \sim N(\mu_1, \sigma_1^2)$, $X_2 \sim N(\mu_2, \sigma_2^2)$ 독립이면 - $M_{X_1+X_2}(t) = e^{\mu_1 t + \frac{1}{2}\sigma_1^2 t^2} e^{\mu_2 t + \frac{1}{2}\sigma_2^2 t^2} = e^{(\mu_1+\mu_2)t + \frac{1}{2}(\sigma_1^2+\sigma_2^2) t^2}$ - 이는 $X_1+X_2 \sim N(\mu_1+\mu_2, \sigma_1^2+\sigma_2^2)$ 임을 보여준다.