본 글은 네이버 부스트코스에서 제공하는 하버드 확률론 기초: Statistics 110 강의를 기초로 정리하였습니다.
분포는 X가 어떻게 다르게 행동할지에 대한 확률을 말한다.
이항분포 $X \sim Bin(n,p)$
n은 임의의 양의 정수, p는 0과 1 사이의 임의의 실수의 값을 가진다.
이항분포의 해석
확률변수 X가 이항분포를 따른다고 할 때, 아래 세 가지 관점에서 접근할 수 있다.
Story
X는 n개의 독립적인 베르누이 시행 $Bern(p)$에서 성공한 횟수
지시확률변수의 합의 꼴 Sum of indicator random variables
각 확률변수는 독립적($i.i.d$)이며 베르누이 분포를 따른다는 것은 다음과 같다.
$$X=X_1+X_2+···+X_n, \ X_j=\begin{cases}1 & if\ j^{th}\ trial\ success\\0 & otherwise\end{cases}$$
확률질량함수 Probability Mass Function, PMF
모든 j에 대해 $X=a_j$일 확률
$$P_j \geq 0\ and\ \sum_j P_j=1$$
이산확률변수에 대해서만 정의가 가능하며, 이산적이라는 것은 열거 가능한 정수값으로 구성되어 있다는 것.
$$P(X=k)=\begin{pmatrix} n \\ k \end{pmatrix} p^kq^{n-k},\ q=1-p,\ k \in \big\{0,1,···,n\big\}$$
$$\sum_{k=0}^n \begin{pmatrix} n \\ k \end{pmatrix} p^kq^{n-k}=(p+q)^n=1^n=1,\ by\ Binomial\ Theorem$$
두 이항분포의 합을 해석하는 방법
$$X\sim Bin(n,p),\ Y\sim Bin(m,p)\ independent\\ \rightarrow X+Y \sim Bin(n+m,p)$$
Story
두 함수를 더하려면, 두 정의역이 같아야 한다. 물론 위의 경우에는 모두 조약돌 표본으로 생각할 수 있으므로 해당 조건을 만족한다. 두 함수가 같은 표본공간에 있다면, 이 둘을 더하고나 곱하거나 원하는 대로 연산할 수 있다.
직관적으로 이해해보자.
X는 n번의 시행 중 성공횟수, Y는 m번의 시행 중 성공횟수이며 X와 Y는 독립이므로 서로 다른 시행의 집합이다.
→ 같은 확률 p인 총 n+m번의 시행은 n번에서의 성공횟수와 m번에서의 성공횟수와 같다.
대수학적 관점
서로 독립이고 확률이 같은 두 베르누이 분포에 대해, 두 분포의 합은 시행횟수를 더하고 이전과 동일한 확률의 이항분포와 같다.
$$X=X_1+···+X_n,\ Y=Y_1+···+Y_m \Rightarrow X+Y=\sum_{i=1}^n X_i+\sum_{j=1}^m Y_j$$
$$sum\ of\ n+m\ i.i.d.\ Bern(p)\Rightarrow\ Bin(n+m,p)$$
확률질량함수
$$P(X+Y=k)=?$$
X 또는 Y 중 하나를 안다면 풀어내기 쉽기 때문에, X에 대한 조건을 설정해 전확률정리를 적용하자.
![]() ![]() ![]() ![]() ![]() ![]() |
여기에서 j를 n까지가 아닌 k까지로 설정한 이유는 X+Y=k이므로 둘 중 하나인 X의 값이 k보다 클 수는 없기 때문 X는 이항확률변수이므로 이항확률변수의 확률질량함수로 전개 X와 Y는 독립이므로 X에 대한 조건으로부터 Y에 대한 정보를 얻을 수 없다. 방데르몬드 항등식 VanderMonde identity |
이항분포가 아님에도 이항분포라고 생각하는 경우
전제
시행은 독립적이고, 성공 확률이 같아야 한다.
예제. 52장의 카드 중 크기 5의 부분집합 선택할 때, 크기 5의 모든 부분집합은 동등한 확률로 분포하고, Ace 카드의 개수에 대한 확률분포는? PMF (or CDF)
주어진 문제의 변수는 이산적이므로 PMF를 구한다.
$X = \#\text{ of Aces}$라 하고, $P(X=k)$를 구하자.
$k \in \big\{{0,1,2,3,4}\big\}$가 아니라면 $P(X=k)=0$와 같다. 하나의 카드 덱에는 Ace 카드 4장이 존재하므로
이때 Ace 카드를 다섯 장 선택하는 본 문제의 확률분포는 이항분포가 아니다.
이미 Ace 카드를 뽑았다면, 다음 카드에서 Ace 카드를 뽑을 확률은 낮아진다. 즉, 시행이 독립적이지 않다.
확률질량함수를 구해본다면,
$$P(X=k)=\frac{\begin{pmatrix}4\\k\end{pmatrix}\begin{pmatrix}48\\5-k\end{pmatrix}}{\begin{pmatrix}52\\5\end{pmatrix}}\ for\ k\in \big\{{0,1,2,3,4}\big\}$$
예제. 엘크 문제
꼬리표를 달고 있는 사슴 집단과 꼬리표를 달지 않은 사슴 집단이 있고, 그 중 표본을 선택했을 때 꼬리표를 달고 있는 사슴이 k마리일 확률을 구하는 문제. 이는 앞선 예제에서 에이스 카드를 태깅된 엘크라 여기는 것과 같다.
예제. 검은 구슬 b개, 하얀 구슬 w개 중 n개의 단순 무작위 표본을 선택한다. 표본으로 뽑인 구슬 중 하얀 구슬 개수의 분포는?
이 역시도 엘크 문제, 에이스 카드 문제와 동일하다.
$$P(X=k)=\frac {\begin{pmatrix}w\\k\end{pmatrix}\begin{pmatrix}b\\n-k\end{pmatrix}}{\begin{pmatrix}w+b\\n\end{pmatrix}},\ 0 \leq k\leq w,\ 0\leq n-k\leq b$$
참고로, 위와 같은 분포는 초기하분포 Hypergeometric 에 해당한다.
방데르몬드 항등식을 활용하면 다음의 식을 확인할 수 있다.
$$\sum _{k=0}^w\frac {\begin{pmatrix}w\\k\end{pmatrix}\begin{pmatrix}b\\n-k\end{pmatrix}}{\begin{pmatrix}w+b\\n\end{pmatrix}}=\frac1{\begin{pmatrix}w+b\\n\end{pmatrix}}\sum _{k=0}^w {\begin{pmatrix}w\\k\end{pmatrix}\begin{pmatrix}b\\n-k\end{pmatrix}}=\frac{\begin{pmatrix}w+b\\n\end{pmatrix}}{\begin{pmatrix}w+b\\n\end{pmatrix}}=1\ by\ VanderMont$$
누적분포함수 CDF
$P(X \leq x)$
| 연속분포 | 이산분포 |
![]() |
![]() |
'Academic > Statistics' 카테고리의 다른 글
| 확률론 기초: Statistics 110 _ 기댓값, 지시확률변수와 선형성 (0) | 2025.09.18 |
|---|---|
| 확률론 기초: Statistics 110 _ 도박꾼의 파산 문제와 확률변수 (0) | 2025.09.17 |
| 확률론 기초: Statistics 110 _ Monty Hall 문제와 심슨의 역설 (1) | 2025.09.16 |
| 확률론 기초: Statistics 110 _ 조건부 확률과 전확률정리 (0) | 2025.09.15 |
| 확률론 기초: Statistics 110 _ 조건부 확률 (0) | 2025.09.15 |









