### 확률 개요 확률 이론은 불확실성을 다루는 수학의 한 분야입니다. - **랜덤 실험**: 결과가 확실하게 예측될 수 없는 실험. - **확률**: 특정 결과가 발생할 가능성 또는 개연성. - **주요 인물**: 페르마, 파스칼, 베르누이, 라플라스, 콜모고로프 등. #### 확률 정의 접근법 1. **고전적 접근법**: 유한한 수의 "동등하게 가능성 있는" 결과가 있는 실험에 적용됩니다. $$\text{P(A)} = \frac{\text{사건의 결과 수}}{\text{총 결과 수}}$$ 예: 공정한 동전 던지기에서 앞면이 나올 확률은 1/2입니다. 2. **빈도 접근법**: 대규모 시행에서 랜덤 실험의 결과가 A가 되는 횟수의 비율. 예: 항공기 추락 확률은 경험적 데이터(상대 빈도)를 기반으로 합니다. 3. **주관적 접근법**: 개인의 믿음이나 의견을 기반으로 한 확률. 예: "내일 주가지수가 오를 확률"은 주관적인 의견입니다. 4. **공리적 접근법**: 개념적 어려움을 피하기 위해 확률은 공리적으로 정의됩니다 (증명 없이 받아들여지는 일부 원칙). 집합론의 도구를 기반으로 합니다. ### 집합론 #### 정의 - **집합**: 잘 정의된 객체의 모음. 객체는 **원소**라고 합니다. - **랜덤 실험**: 매번 여러 가능한 결과 중 하나가 발생합니다. 이러한 가능한 결과를 **결과**라고 합니다. - **표본 공간 (S)**: 모든 가능한 결과의 모음. - **사건**: 잘 정의된 결과의 집합. - **사건은 표본 공간의 부분집합**이며, 우리는 사건의 확률에 대해 이야기합니다. #### 표본 공간의 예 - 동전 던지기: $S = \{H, T\}$ - 주사위 굴리기: $S = \{1, 2, 3, 4, 5, 6\}$ - 카드 뽑기: 52가지 가능성 (4가지 무늬와 13가지 숫자 조합) #### 사건의 예 - 동전 한 번 던지기에서 앞면: $\{H\}$ - 주사위 굴리기에서 "홀수", "짝수", "3보다 작은 숫자" #### 집합에 대한 기본 연산 - **부분집합/상위집합**: $A \subset B$이면 $x \in A \Rightarrow x \in B$ - **동등성**: $A=B$이면 $A \subset B$이고 $B \subset A$입니다. - **합집합 ($\cup$)**: $A \cup B = \{x : x \in A \text{ 또는 } x \in B\}$ ("A 또는 B") - **교집합 ($\cap$)**: $A \cap B = \{x : x \in A \text{ 이고 } x \in B\}$ ("A와 B 둘 다") - **여집합 ($A^c$)**: $A^c = \{x : x \notin A\}$ ("A가 아님") - **차집합 ($A \setminus B$ 또는 $A - B$)**: $A \setminus B = \{x : x \in A, x \notin B\}$ ("A이지만 B가 아님") - **공집합 ($\emptyset$)**: 원소가 없습니다. - **서로소 또는 상호 배타적**: $A \cap B = \emptyset$이면 $A$와 $B$는 서로소입니다. - **쌍별 서로소 또는 상호 배타적**: $A_1, A_2, \dots, A_n$은 모든 $i \neq j$에 대해 $A_i \cap A_j = \emptyset$이면 쌍별 서로소입니다. #### 정리 (집합 연산) 어떤 세 집합 $A, B, C$에 대해 다음이 성립합니다: 1. **교환 법칙**: $A \cup B = B \cup A$, $A \cap B = B \cap A$ 2. **결합 법칙**: $A \cup (B \cup C) = (A \cup B) \cup C$, $A \cap (B \cap C) = (A \cap B) \cap C$ 3. **분배 법칙**: $A \cap (B \cup C) = (A \cap B) \cup (A \cap C)$, $A \cup (B \cap C) = (A \cup B) \cap (A \cup C)$ 4. **드 모르간 법칙**: $(A \cup B)^c = A^c \cap B^c$, $(A \cap B)^c = A^c \cup B^c$ 5. **이중 여집합**: $(A^c)^c = A$ ### 확률의 공리적 기초 **정의 (콜모고로프 공리)**: 표본 공간 $S$와 관련 $\sigma$-대수 $B$가 주어졌을 때, $B$에 정의된 집합 함수 $P$는 다음을 만족할 때 **확률**이라고 합니다: (i) **비음성**: 모든 $A \in B$에 대해 $P(A) \ge 0$. (ii) **전체 확률**: $P(S) = 1$. (iii) **가산 가법성**: $A_1, A_2, \dots$이 상호 배타적인 사건이면 $P(\bigcup_{i=1}^\infty A_i) = \sum_{i=1}^\infty P(A_i)$. **$\sigma$-대수 정의**: 표본 공간 $S$의 부분집합들의 모음 $B$는 다음 세 가지 속성을 만족할 때 $\sigma$-대수 또는 $\sigma$-필드라고 합니다: (i) $\emptyset \in B$. (ii) $A \in B$이면 $A^c \in B$ (여집합에 대해 닫혀 있습니다). (iii) $A_1, A_2, \dots \in B$이면 $\bigcup_{i=1}^\infty A_i \in B$ (가산 합집합에 대해 닫혀 있습니다). ### 확률 계산 **정리 1.2.8** (i) $P(\emptyset) = 0$. (ii) $P(A) \le 1$. (iii) $P(A^c) = 1 - P(A)$. **정리 1.2.9** 어떤 $A, B$에 대해 다음이 성립합니다: (i) $P(B \cap A^c) = P(B) - P(A \cap B)$. (ii) $P(A \cup B) = P(A) + P(B) - P(A \cap B)$. (iii) $A \subset B$이면 $P(A) \le P(B)$. #### 사건 합집합 및 교집합의 확률 (부등식) 1. **부울 부등식**: $P(A \cup B) \le P(A) + P(B)$. 2. **$n$개 사건에 대한 부울 부등식**: $P(\bigcup_{i=1}^n A_i) \le \sum_{i=1}^n P(A_i)$. 3. **본페로니 부등식**: $P(A \cap B) \ge P(A) + P(B) - 1$. 4. **$n$개 사건에 대한 본페로니 부등식**: $P(\bigcap_{i=1}^n A_i) \ge \sum_{i=1}^n P(A_i) - (n - 1)$. #### 사건 합집합 및 교집합의 확률 (방정식) 5. **세 사건의 합집합**: $P(A \cup B \cup C) = P(A) + P(B) + P(C) - P(A \cap B) - P(A \cap C) - P(B \cap C) + P(A \cap B \cap C)$. 6. **$n$개 사건의 합집합: 포함-배제 원리 (조던 공식)**: $P(\bigcup_{i=1}^n A_i) = P_1 - P_2 + P_3 - \dots + (-1)^{n-1} P_n$, 여기서 $P_k = \sum_{1 \le i_1 ### 조건부 확률 및 독립성 **정의**: $P(B) > 0$일 때 $B$가 주어졌을 때 $A$의 확률은 다음과 같이 정의됩니다: $$P(A|B) = \frac{P(A \cap B)}{P(B)}$$ #### 몇 가지 사실 - $P(B|B) = 1$ - $A \subset B$일 때 $P(A|B) = P(A)/P(B)$. - $A \subset B$일 때 $P(B|A) = 1$. - **곱셈 공식**: 조건부 확률을 얻는 것이 더 쉬울 때 유용합니다. $P(A \cap B) = P(B)P(A|B) = P(A)P(B|A)$. - $P(A) = P(A \cap B) + P(A \cap B^c) = P(B)P(A|B) + P(B^c)P(A|B^c)$. - $A$와 $B$가 상호 배타적이면 $P(A|A \cup B) = \frac{P(A)}{P(A) + P(B)}$. - $P(A \cap B \cap C) = P(A|B \cap C)P(B|C)P(C)$. **베이즈 정리 (조건부 확률의 역전)**: $B_1, B_2, \dots$가 표본 공간의 분할이고 $A$가 임의의 사건일 때, 사후 확률은 다음과 같습니다: $$P(B_i|A) = \frac{P(B_i \cap A)}{P(A)} = \frac{P(B_i)P(A|B_i)}{\sum_j P(B_j)P(A|B_j)}$$ #### 독립성 **정의**: 두 사건 $A$와 $B$는 한 사건의 발생이 다른 사건의 발생 여부에 대한 정보를 주지 않을 때 **독립**입니다. 즉, $P(A|B) = P(A)$입니다 ( $P(A)$ 또는 $P(B)$가 0인 경우에도 적용됩니다). 이는 다음 등가식과 같습니다: $P(A \cap B) = P(A)P(B)$. - **대칭 관계**: $A$가 $B$로부터 독립이면 $B$도 $A$로부터 독립입니다. - **독립과 상호 배타성**: $P(A) > 0$이고 $P(B) > 0$이면, (a) $A$와 $B$가 상호 배타적이면 독립일 수 없습니다. (b) $A$와 $B$가 독립이면 상호 배타적일 수 없습니다. **정리**: $A$와 $B$가 독립이면 쌍 $(A, B^c)$, $(A^c, B)$, $(A^c, B^c)$도 독립입니다. #### 사건 모음의 독립성 **정의**: 모든 부분 모음에 대해 교집합의 확률이 확률의 곱과 같을 때, 사건 모음은 **상호 독립**입니다. **정의**: 모든 쌍이 독립일 때, 사건 모음은 **쌍별 독립**입니다. ### 랜덤 변수 **정의**: 랜덤 변수는 표본 공간 $S$에 정의된 실수 값 함수, 즉 각 결과에 숫자를 할당하는 규칙입니다. 보통 $X, Y, Z$와 같은 대문자로 표시됩니다. - **이산 랜덤 변수**: 유한하거나 가산적으로 많은 값만 취하는 경우. - **연속 랜덤 변수**: 간격 내의 모든 값을 취할 수 있고, cdf $F(x)$가 연속 함수인 경우. #### 이산 랜덤 변수의 변환 $X$가 pmf $f_X(x) = P(X=x)$를 가진 이산 랜덤 변수이고 $Y=g(X)$이면, $Y$도 이산 랜덤 변수입니다. $Y$의 pmf는 다음과 같이 계산할 수 있습니다: $$f_Y(y) = P(Y=y) = P(g(X)=y) = P(X \in g^{-1}(\{y\})) = \sum_{x \in g^{-1}(\{y\})} f_X(x)$$ #### 연속 랜덤 변수의 변환 $X$가 연속 랜덤 변수이고 $Y=g(X)$이면, $Y$의 cdf는 다음과 같습니다: $$F_Y(y) = P(Y \le y) = P(g(X) \le y) = \int_{\{x \in \mathcal{X} : g(x) \le y\}} f_X(x)dx$$ $g$가 단조 함수이고 $g^{-1}$가 연속적으로 미분 가능하면, $Y$의 pdf는 다음과 같습니다: $$f_Y(y) = f_X(g^{-1}(y)) \left| \frac{d}{dy}g^{-1}(y) \right|$$ ### 기댓값 랜덤 변수 $X$의 pdf 또는 pmf가 $f(x)$일 때, $g(X)$의 **기댓값** 또는 **평균**은 다음과 같이 정의됩니다: $$E(g(X)) = \begin{cases} \int_{-\infty}^\infty g(x)f_X(x)dx, & \text{X가 연속일 때} \\ \sum_{x \in \mathcal{X}} g(x)f_X(x), & \text{X가 이산일 때} \end{cases}$$ (적분 또는 합이 존재할 경우) **정리 (기댓값의 선형성)**: $E(g_1(X))$와 $E(g_2(X))$가 존재한다고 가정합니다. - $E(ag_1(X) + bg_2(X) + c) = aE(g_1(X)) + bE(g_2(X)) + c$. - $g(x) \ge 0 \Rightarrow E(g(X)) \ge 0$. - $g_1(x) \ge g_2(x) \Rightarrow E(g_1(X)) \ge E(g_2(X))$. - $a \le g(x) \le b \Rightarrow a \le E(g(X)) \le b$. - $E(X - E(X)) = 0$. **결과**: $E(X-b)^2$는 $b=E(X)$일 때 최소화됩니다. 즉, 기댓값은 $X$의 좋은 예측 변수입니다. ### 분산 및 표준 편차 랜덤 변수 $X$의 **분산**은 다음과 같이 정의됩니다: $$\text{Var}(X) = E(X - E(X))^2$$ $\sigma^2 = \text{Var}(X)$를 사용합니다. $X$의 **표준 편차**는 $\text{Var}(X)$의 제곱근입니다: $$\sigma = \sqrt{\text{Var}(X)}$$ - 분산과 표준 편차는 모두 분포가 평균 $E(X)$ 주위에 얼마나 퍼져 있는지를 측정합니다. **정리 (계산 공식)**: - $\text{Var}(X) = E(X^2) - (E(X))^2$. - $\text{Var}(aX + b) = a^2\text{Var}(X)$. ### 모멘트 양의 정수 $r$에 대해 $X$의 $r$차 **(원점) 모멘트**는 다음과 같습니다: $$\mu'_r = E(X^r)$$ $r$차 **중심 모멘트**는 다음과 같습니다: $$\mu_r = E(X - E(X))^r$$ **참고**: - $\mu'_0 = 1$, $\mu'_1 = E(X)$ - $\mu_0 = 1$, $\mu_1 = 0$, $\mu_2 = \text{Var}(X)$ $X$의 $r$차 **계승 모멘트**는 다음과 같이 정의됩니다: $$\mu_{[r]} = E(X(X-1)\dots(X-r+1)), \quad \forall r \ge 1$$ 이는 이산 분포의 모멘트를 계산하는 데 유용합니다. #### 두 가지 특별한 모멘트: 왜도 및 첨도 **왜도**: 분포의 대칭성에서 벗어난 정도를 측정합니다. $$\gamma_1 = \mu_3/\sigma^3 = \mu_3/\mu_2^{3/2}$$ - 대칭 랜덤 변수의 경우 $\mu_3 = E(X - E(X))^3 = 0$이므로 $\gamma_1 = 0$입니다. **첨도**: 분포의 봉우리 정도를 측정합니다. $$\gamma_2 = \frac{\mu_4}{\sigma^4} - 3 = \frac{\mu_4}{\mu_2^2} - 3$$ - $\sigma^4$로 나누는 것은 첨도를 순수한 숫자로 만들기 위한 것입니다. - 3을 빼는 것은 정규 분포의 첨도가 0이 되도록 하는 관례입니다. - $\gamma_2 > 0$은 뾰족한 분포(높은 봉우리, 두꺼운 꼬리)를, $\gamma_2 ### 모멘트 생성 함수 cdf $F_X$와 pmf/pdf $f_X$를 가진 랜덤 변수 $X$의 **모멘트 생성 함수 (MGF)**는 다음과 같이 정의됩니다: $$M_X(t) = E(e^{tX}) = \begin{cases} \sum_x e^{tx}f_X(x), & \text{X가 이산일 때} \\ \int_{-\infty}^\infty e^{tx}f_X(x)dx, & \text{X가 연속일 때} \end{cases}$$ - **해석**: $M_X(t)$의 무한 테일러 급수 전개에서 $t^r/r!$의 계수는 $\mu'_r = E(X^r)$입니다. **계산 공식**: - $M_X(0) = 1$. - $M_{aX+b}(t) = e^{bt}M_X(at)$. - $\mu'_r = E(X^r) = \left. \left( \frac{d^r}{dt^r}M_X(t) \right) \right|_{t=0}$. ### 공통 분포 계열 분포 계열은 하나 이상의 매개변수로 색인된 pmf/pdf 클래스입니다. - 한 계열 내의 분포는 공통된 pdf/pmf 형태를 가지지만 매개변수 값은 다릅니다. - 각 분포에 대해 평균, 분산 및 기타 설명 측정값을 연구합니다. #### 1. 이산 균등 분포 $X$: 가능한 값 $1, 2, \dots, N$. $N$은 매개변수입니다. $P(X=x|N) = 1/N, \quad x = 1, 2, \dots, N$. $E(X) = \frac{N+1}{2}$, $\text{Var}(X) = \frac{(N+1)(N-1)}{12}$. 일반적으로 $X \sim \text{Discrete Unif}(N_0, N_1)$은 $N_0, N_0+1, \dots, N_1$의 모든 정수 값을 동일한 확률로 취합니다. $P(X=x|N_0, N_1) = \frac{1}{N_1 - N_0 + 1}, \quad x = N_0, \dots, N_1$. $E(X) = \frac{N_0+N_1}{2}$. #### 2. 초기하 분포 $N$개의 공, $M$개의 빨간 공, $N-M$개의 초록 공이 있는 큰 항아리가 있습니다. 비복원 추출로 $K$개의 공을 뽑습니다. $X$: 샘플링된 $K$개의 공 중 빨간 공의 수. $K \le M$이고 $K \le (N-M)$일 때: $$P(X=x|M, N, K) = \frac{\binom{M}{x}\binom{N-M}{K-x}}{\binom{N}{K}}, \quad x = 0, 1, \dots, K.$$ $E(X) = K\frac{M}{N}$, $\text{Var}(X) = K\frac{M}{N}\left(1-\frac{M}{N}\right)\frac{N-K}{N-1}$. #### 3. 이항 분포 랜덤 실험을 $n$번 반복하며 네 가지 조건을 만족합니다: (i) 두 가지 가능한 결과: 성공 (S) 또는 실패 (F); (ii) 각 시행에서 성공 확률 $p$는 동일합니다; (iii) 실험은 서로 독립입니다; (iv) $X = n$번의 시행에서 총 성공 횟수. 이러한 시행을 베르누이 시행이라고 합니다. $X \sim \text{Bin}(n,p)$이며 pmf는 다음과 같습니다: $$P(X=x) = \binom{n}{x}p^x(1-p)^{n-x}, \quad x = 0, 1, \dots, n.$$ $E(X) = np$, $\text{Var}(X) = np(1-p)$, $M_X(t) = (1-p+pe^t)^n$. #### 4. 포아송 분포 랜덤 변수 $X$는 음이 아닌 정수 값을 취합니다. $$P(X=x) = e^{-\lambda}\lambda^x/x!, \quad x = 0, 1, \dots.$$ $E(X) = \lambda$, $\text{Var}(X) = \lambda$, $M_X(t) = e^{\lambda(e^t-1)}$. - 포아송 분포는 특정 사건이 주어진 시간/공간 간격 동안 알려진 평균 비율로 독립적으로 발생하는 경우에 사건의 수를 설명하는 데 자주 사용됩니다. #### 5. 기하 분포 베르누이 시행, 성공 또는 실패. 성공할 때까지 계속합니다. $X = $ 첫 번째 성공을 얻기 위해 필요한 시행 횟수. $P(X=x) = pq^{x-1}, \quad x = 1, \dots.$ (여기서 $q=1-p$) $E(X) = 1/p$, $\text{Var}(X) = (1-p)/p^2$. - **무기억성 속성**: $P(X > s|X > t) = P(X > s-t)$ (과거를 "잊어버립니다"). #### 6. 음이항 분포 (NB) 베르누이 시행에서 $r$번의 성공을 얻을 때까지 계속합니다. $X = $ $r$번의 성공을 얻기 위해 필요한 시행 횟수. $X \sim \text{NB}(r,p)$. $$P(X=x|r,p) = \binom{x-1}{r-1}p^r(1-p)^{x-r}, \quad x = r, r+1, \dots.$$ 대체 정의: $Y = $ $r$번의 성공을 얻기 위한 실패 횟수 ($X=Y+r$). $$P(Y=y|r,p) = \binom{r+y-1}{r-1}p^r(1-p)^y, \quad y = 0, 1, \dots.$$ $E(Y) = r\frac{1-p}{p}$, $\text{Var}(Y) = r\frac{1-p}{p^2}$. $M_Y(t) = \left(\frac{p}{1-(1-p)e^t}\right)^r$, $t ### 연속 분포 #### 7. 연속 균등 분포 $X \sim \text{Unif}(a,b)$일 때 pdf는 다음과 같습니다: $$f(x|a,b) = \frac{1}{b-a}, \quad a 0$이면 pdf는 다음과 같습니다: $$f(x|\beta) = \frac{1}{\beta}e^{-x/\beta}, \quad x > 0.$$ CDF $F(x) = 1-e^{-x/\beta}$ (for $x>0$), $0$ (for $x \le 0$). $E(X) = \beta$, $\text{Var}(X) = \beta^2$. $M(t) = \frac{1}{1-\beta t}$ (for $t s|X > t) = P(X > s-t), \quad s > t > 0$. #### 9. 감마 분포 감마 함수 $\Gamma(\alpha) = \int_0^\infty e^{-x}x^{\alpha-1}dx$를 사용합니다. $X \sim \text{Gamma}(\alpha, \beta)$일 때, $\alpha, \beta > 0$이면 pdf는 다음과 같습니다: $$f(x|\alpha, \beta) = \frac{1}{\beta^\alpha \Gamma(\alpha)}e^{-x/\beta}x^{\alpha-1}, \quad x > 0.$$ $E(X) = \alpha\beta$, $E(X^k) = \beta^k \frac{\Gamma(\alpha+k)}{\Gamma(\alpha)}$, $\text{Var}(X) = \alpha\beta^2$. $M_X(t) = (1-\beta t)^{-\alpha}$ (for $t 0$이며 $X \sim \text{exp}(\beta)$일 때: $$f(y|\beta, \gamma) = \frac{\gamma}{\beta}y^{\gamma-1}e^{-y^\gamma/\beta}, \quad y > 0.$$ CDF $P(Y \le y) = P(X^{1/\gamma} \le y) = P(X \le y^\gamma) = 1 - e^{-y^\gamma/\beta}$. - **위험 함수** 모델링에 유용합니다. #### 11. 정규 분포 (가우스 분포) (1) $Z$가 표준 정규 분포를 따를 때: $$f(z) = \frac{1}{\sqrt{2\pi}}e^{-z^2/2}, \quad -\infty 0$이면 $x \in (0,1)$에서 pdf는 다음과 같습니다: $$f(x|\alpha, \beta) = \frac{1}{B(\alpha, \beta)}x^{\alpha-1}(1-x)^{\beta-1}, \quad 0 0$. CDF $\Phi((\log x - \mu)/\sigma)$. - **형태**: 매우 비대칭적이며 소득 분포 모델에 사용됩니다. #### 14. 코시 분포 $$f(x|\theta) = \frac{1}{\pi}\frac{1}{1+(x-\theta)^2}, \quad -\infty 0$은 **척도 매개변수**입니다. $E(X) = \mu$, $\text{Var}(X) = 2\sigma^2$. MGF $M_X(t) = \frac{e^{\mu t}}{1-\sigma^2 t^2}$ (for $|t| ### 지수족 많은 공통 분포는 다음과 같은 형태를 취합니다: $$f(x|\boldsymbol{\theta}) = h(x)c(\boldsymbol{\theta})\exp\left(\sum_{i=1}^k w_i(\boldsymbol{\theta})t_i(x)\right)$$ 여기서 $\boldsymbol{\theta}$는 매개변수 벡터입니다. #### 4.1 완전/곡선 지수족 - $d=k$이면 **완전 지수족**이라고 합니다. - $d ### 위치-척도족 **정의**: pdf $f(x)$가 주어졌을 때: (i) $f(x-\mu)$ 형태의 pdf족은 **위치족**이라고 하며, $\mu$는 **위치 매개변수**입니다. (ii) $f(x/\sigma)$ 형태의 pdf족은 **척도족**이라고 하며, $\sigma > 0$은 **척도 매개변수**입니다. (iii) $f((x-\mu)/\sigma)$ 형태의 pdf족은 **위치-척도족**이라고 하며, $\mu$는 위치 매개변수이고 $\sigma$는 척도 매개변수입니다. ### 확률 부등식 #### 체비쇼프/마르코프 부등식 $g$가 음이 아니면: $$P(g(X) \ge r) \le \frac{E(g(X))}{r}, \quad \forall r > 0.$$ **적용**: $E(X)=\mu$이고 $\text{Var}(X)=\sigma^2$이면 (체비쇼프 부등식): $$P(|X-\mu| \ge t\sigma) \le \frac{1}{t^2}, \quad \forall t > 0.$$ #### 또 다른 확률 부등식 $$P(X \ge a) \le e^{-at}M(t), \quad \text{어떤 } t > 0 \text{에 대해.}$$