확률론 기초: Statistics 110 _ 확률변수와 확률분포

2025. 9. 17. 17:02·Academic/Statistics

본 글은 네이버 부스트코스에서 제공하는 하버드 확률론 기초: Statistics 110 강의를 기초로 정리하였습니다. 

 

 

 

분포는 X가 어떻게 다르게 행동할지에 대한 확률을 말한다. 

 

 

이항분포 $X \sim Bin(n,p)$

n은 임의의 양의 정수, p는 0과 1 사이의 임의의 실수의 값을 가진다. 

 

 

이항분포의 해석

확률변수 X가 이항분포를 따른다고 할 때, 아래 세 가지 관점에서 접근할 수 있다. 

 

 

Story

X는 n개의 독립적인 베르누이 시행 $Bern(p)$에서 성공한 횟수

 

 

지시확률변수의 합의 꼴 Sum of indicator random variables

각 확률변수는 독립적($i.i.d$)이며 베르누이 분포를 따른다는 것은 다음과 같다. 

$$X=X_1+X_2+···+X_n, \ X_j=\begin{cases}1 & if\ j^{th}\ trial\ success\\0 & otherwise\end{cases}$$

 

 

확률질량함수 Probability Mass Function, PMF

모든 j에 대해 $X=a_j$일 확률

$$P_j \geq 0\ and\ \sum_j P_j=1$$

 

이산확률변수에 대해서만 정의가 가능하며, 이산적이라는 것은 열거 가능한 정수값으로 구성되어 있다는 것.

 

$$P(X=k)=\begin{pmatrix} n \\ k \end{pmatrix} p^kq^{n-k},\ q=1-p,\ k \in \big\{0,1,···,n\big\}$$

 

$$\sum_{k=0}^n \begin{pmatrix} n \\ k \end{pmatrix} p^kq^{n-k}=(p+q)^n=1^n=1,\ by\ Binomial\ Theorem$$

 

 

 

두 이항분포의 합을 해석하는 방법

$$X\sim Bin(n,p),\ Y\sim Bin(m,p)\ independent\\ \rightarrow X+Y \sim Bin(n+m,p)$$

 

 

Story

두 함수를 더하려면, 두 정의역이 같아야 한다. 물론 위의 경우에는 모두 조약돌 표본으로 생각할 수 있으므로 해당 조건을 만족한다. 두 함수가 같은 표본공간에 있다면, 이 둘을 더하고나 곱하거나 원하는 대로 연산할 수 있다. 

 

직관적으로 이해해보자. 

X는 n번의 시행 중 성공횟수, Y는 m번의 시행 중 성공횟수이며 X와 Y는 독립이므로 서로 다른 시행의 집합이다. 

→ 같은 확률 p인 총 n+m번의 시행은 n번에서의 성공횟수와 m번에서의 성공횟수와 같다. 

 

 

대수학적 관점

서로 독립이고 확률이 같은 두 베르누이 분포에 대해, 두 분포의 합은 시행횟수를 더하고 이전과 동일한 확률의 이항분포와 같다. 

 

$$X=X_1+···+X_n,\ Y=Y_1+···+Y_m \Rightarrow X+Y=\sum_{i=1}^n X_i+\sum_{j=1}^m Y_j$$

$$sum\ of\ n+m\ i.i.d.\ Bern(p)\Rightarrow\ Bin(n+m,p)$$

 

 

확률질량함수

$$P(X+Y=k)=?$$

 

X 또는 Y 중 하나를 안다면 풀어내기 쉽기 때문에, X에 대한 조건을 설정해 전확률정리를 적용하자. 

 








 
여기에서 j를 n까지가 아닌 k까지로 설정한 이유는
X+Y=k이므로 둘 중 하나인 X의 값이 k보다 클 수는 없기 때문



X는 이항확률변수이므로 이항확률변수의 확률질량함수로 전개



X와 Y는 독립이므로
X에 대한 조건으로부터 Y에 대한 정보를 얻을 수 없다.




방데르몬드 항등식 VanderMonde identity










 

 

 

이항분포가 아님에도 이항분포라고 생각하는 경우

전제

시행은 독립적이고, 성공 확률이 같아야 한다. 

 

 

예제. 52장의 카드 중 크기 5의 부분집합 선택할 때, 크기 5의 모든 부분집합은 동등한 확률로 분포하고, Ace 카드의 개수에 대한 확률분포는? PMF (or CDF)

 

주어진 문제의 변수는 이산적이므로 PMF를 구한다. 

 

$X = \#\text{ of Aces}$라 하고, $P(X=k)$를 구하자. 

$k \in \big\{{0,1,2,3,4}\big\}$가 아니라면 $P(X=k)=0$와 같다. 하나의 카드 덱에는 Ace 카드 4장이 존재하므로 

 

이때 Ace 카드를 다섯 장 선택하는 본 문제의 확률분포는 이항분포가 아니다. 

이미 Ace 카드를 뽑았다면, 다음 카드에서 Ace 카드를 뽑을 확률은 낮아진다. 즉, 시행이 독립적이지 않다. 

 

확률질량함수를 구해본다면, 

$$P(X=k)=\frac{\begin{pmatrix}4\\k\end{pmatrix}\begin{pmatrix}48\\5-k\end{pmatrix}}{\begin{pmatrix}52\\5\end{pmatrix}}\ for\ k\in \big\{{0,1,2,3,4}\big\}$$

 

 

예제. 엘크 문제 

꼬리표를 달고 있는 사슴 집단과 꼬리표를 달지 않은 사슴 집단이 있고, 그 중 표본을 선택했을 때 꼬리표를 달고 있는 사슴이 k마리일 확률을 구하는 문제. 이는 앞선 예제에서 에이스 카드를 태깅된 엘크라 여기는 것과 같다. 

 

 

예제. 검은 구슬 b개, 하얀 구슬 w개 중 n개의 단순 무작위 표본을 선택한다. 표본으로 뽑인 구슬 중 하얀 구슬 개수의 분포는?

이 역시도 엘크 문제, 에이스 카드 문제와 동일하다. 

$$P(X=k)=\frac {\begin{pmatrix}w\\k\end{pmatrix}\begin{pmatrix}b\\n-k\end{pmatrix}}{\begin{pmatrix}w+b\\n\end{pmatrix}},\ 0 \leq k\leq w,\ 0\leq n-k\leq b$$

 

참고로, 위와 같은 분포는 초기하분포 Hypergeometric 에 해당한다. 

방데르몬드 항등식을 활용하면 다음의 식을 확인할 수 있다. 

$$\sum _{k=0}^w\frac {\begin{pmatrix}w\\k\end{pmatrix}\begin{pmatrix}b\\n-k\end{pmatrix}}{\begin{pmatrix}w+b\\n\end{pmatrix}}=\frac1{\begin{pmatrix}w+b\\n\end{pmatrix}}\sum _{k=0}^w {\begin{pmatrix}w\\k\end{pmatrix}\begin{pmatrix}b\\n-k\end{pmatrix}}=\frac{\begin{pmatrix}w+b\\n\end{pmatrix}}{\begin{pmatrix}w+b\\n\end{pmatrix}}=1\ by\ VanderMont$$

 

 

 

누적분포함수 CDF

$P(X \leq x)$

 

연속분포 이산분포

 

 

 

 

'Academic > Statistics' 카테고리의 다른 글

확률론 기초: Statistics 110 _ 기댓값, 지시확률변수와 선형성  (0) 2025.09.18
확률론 기초: Statistics 110 _ 도박꾼의 파산 문제와 확률변수  (0) 2025.09.17
확률론 기초: Statistics 110 _ Monty Hall 문제와 심슨의 역설  (1) 2025.09.16
확률론 기초: Statistics 110 _ 조건부 확률과 전확률정리  (0) 2025.09.15
확률론 기초: Statistics 110 _ 조건부 확률  (0) 2025.09.15
'Academic/Statistics' 카테고리의 다른 글
  • 확률론 기초: Statistics 110 _ 기댓값, 지시확률변수와 선형성
  • 확률론 기초: Statistics 110 _ 도박꾼의 파산 문제와 확률변수
  • 확률론 기초: Statistics 110 _ Monty Hall 문제와 심슨의 역설
  • 확률론 기초: Statistics 110 _ 조건부 확률과 전확률정리
mila-aa
mila-aa
  • mila-aa
    log-able
    mila-aa
  • 전체
    오늘
    어제
    • 분류 전체보기 (13)
      • Academic (9)
        • Statistics (9)
        • Linear Algebra (0)
        • Algorithm (0)
      • Study (1)
        • SQL (0)
        • Visualization (1)
      • Project (0)
      • Note (0)
        • Why-metrics (0)
        • Issue (0)
        • Thinking (0)
      • Review (1)
        • Article (2)
        • Book (0)
        • Tastes (0)
        • Certificate (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    원씽
    Statistics
    데이터리안
    RFM 분석
    Book
    Statistics 110
    데이터 문해력
    Visualization
    린 분석
    tableau
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
mila-aa
확률론 기초: Statistics 110 _ 확률변수와 확률분포
상단으로

티스토리툴바