본 글은 네이버 부스트코스에서 제공하는 하버드 확률론 기초: Statistics 110 강의를 기초로 정리하였습니다.
누적분포함수 CDF
실수 $x$에 대한 함수의 누적분포함수 $CDF$는 모든 확률변수에 대해 적용되며, 다음과 같이 나타낼 수 있다.
$$F(x)=P(X \leq x)$$
연속형과 이산형에 따른 누적분포함수의 그래프는 다음과 같다.
| 연속분포 | 이산분포 |
![]() |
![]() |
확률질량함수와 누적분포함수
누적분포함수(이산)에서 확률질량함수는 위 그래프에서의 각 점프의 수직 높이와 같다. 즉, 점프의 수직 높이는 X가 특정 값일 확률. 또한 누적분포함수는 확률질량함수의 단순 합과 같다.
누적분포에서 X에 대한 모든 확률을 찾을 수 있다.
누적분포함수 관점에서 $P(1\leq x\leq 3)$을 구해보자.
$X=1$을 기준으로 분할하면,
$$P(X\leq 1P(1<X \leq 3)=P(X\leq 3)$$
$$P(1<X \leq 3)=F(3)-F(1)$$
일반화하면
$$P(a<X \leq b)=F(b)-F(a)$$
* 부등호와 등호 유의
누적분포함수의 세 가지 속성
다음 세 가지가 성립한다면, 그 함수는 유효한 누적분포함수라고 할 수 있따.
(1) 감소 없이 유지 또는 증가
(2) 우-연속 함수 right-conditionuous
(3) $F(X) \rightarrow 0\ as \ X \rightarrow - \infty$
$F(X)\rightarrow 1\ as\ X\rightarrow \infty$
확률변수의 독립
만약 모든 $x,\ y$에 대해 $P(X\leq x,\ Y\leq y)=P(X\leq x)P(Y\leq y)$라면,
확률변수 $X,\ Y$는 독립이다.
이산 분포일 때, 확률변수 $X,\ Y$가 독립이라는 것은 곧
$$P(X= x,\ Y = y)=P(X = x)P(Y = y)$$
평균
평균을 구하는 방법에는 평균값, 중앙값, 최빈값, 다양한 가중평균들이 있으며, 아무런 조건이 붙지 않고 '평균'을 물었다면 그 값은 평균값 Means, Expected Value를 의미한다.
평균값 구하기
(1) 비가중평균
$$\big\{1,1,1,1,1,3,3,5\big\} \rightarrow E(X)=\frac{1+1+1+1+1+3+3+5}8$$
(2) 가중평균
동일한 값끼리 그룹을 만들고 각 크기에 따른 가중치(=확률)을 주어 그룹을 활용해 평균을 계산한다. 가능성 높은 값에 높은 가중치, 가능성 낮은 값에 낮은 가중치를 주는 것.
$$ \big\{1,1,1,1,1,3,3,5\big\} \rightarrow E(X)= \frac 58·1+\frac 28·3+\frac 18·5$$
선형성
선형성은 기댓값의 가장 중요한 속성이다.
$X,\ Y$가 서로 독립적인지 혹은 종속적인 것과는 무관하게 다음을 만족한다.
$$E(X+Y)=E(X)+E(Y)$$
$$E(cX)=cE(X)\ when\ c\ is\ a\ constant$$
이산확률변수의 평균
x가 양의 정수라면, 그 평균은 x와 각 특정 속성을 가진 확률의 곱의 합이다.
$$E(X)=\sum _x xP(X=x)=summed\ over \ x \ with\ P(X=x)>0$$
예제. 베르누이 분포 $X\sim Bern(p)$
$$E(X)=1·P(X=1)+0·P(X=0)=P$$
지시확률변수 $X$는 어떤 사건이 발생하면 1, 그렇지 않다면 0의 확률을 가진다.
![]() |
|
| → The fundamental bridge 확률과 기댓값의 관계를 연결 |
예제. 이항 분포 $X\sim Bin(n,p)$
일반적 접근
| $E(X)$ | |
| $=\sum _{k=0}^n k\begin{pmatrix}n\\k\end{pmatrix}p^kq^{n-k}$ | |
| $=\sum_{k=0}^n n\begin{pmatrix}n\\n-k\end{pmatrix}p^kq^{n-k}$ | like { 위원회 선택 후 대표 선출 = 대표 선출 후에 위원회 선택 } |
| $=np\sum _{k=1}^n \begin{pmatrix}n-1\\n-k\end{pmatrix}p^{k-1}q^{n-k}$ | |
| $=np\sum _{k=0}^{n-1} \begin{pmatrix}n-1\\j\end{pmatrix}p^jq^{n-1-j}$ | $j=k-1$ |
| $=np·1=np$ | 이항분포이므로 $\sum _{k=0}^{n-1} \begin{pmatrix}n-1\\j\end{pmatrix}p^jq^{n-1-j}=1$ |
선형성 고려한 접근
각각의 베르누이 분포는 p의 확률을 가지고 있고, 총 n개 존재하므로 기댓값의 선형성에 따라 다음과 같이 전개된다.
$$Bin(n,p)=n·Bern(p)$$
이는 곧 다음과 같다.
$$E(X)=np$$
예제. 초기하분포 $X\sim Hypergeometric(N,m,n)$
앞선 강의의 카드 문제를 선형성을 고려해 풀어볼 수 있다.
총 52장의 카드 덱에서 5장의 카드를 선택할 때, $X= \#\text{ of Aces} $ , 지시확률변수 $ X_j $ 는 $ j $ 번째 카드가 Ace일 지시라고 하자. $ j \in \big\{0, 1, 2, 3, 4\big\} $ 이며 총 다섯 개의 지시확률변수가 존재한다. 이때 $ X_j $ 는 의존적이지만 선형성을 적용할 수 있다.
| $E(X)$ | |
| $=E(X_1+···+X_5)$ | 지시확률변수 |
| $=E(X_1)+···+E(X_5)$ | 선형성 적용 |
| $=5E(X_1)$ | 대칭 |
| $=5P(1st\ card\ Ace)$ | Fundamental bridge |
| $=\frac 5{13}$ |
예제. 기하분포 $X\sim Geom(p)$
기하분포는 독립적인 베르누이 시행 $Bern(p)$에서 첫 번째 성공 전까지의 실패 횟수 $X$의 확률분포이다.
예를 들어, F F F F F S 인 상황이라면 $P(X=5)=q^5p$ 와 같이 나타낼 수 있다.
$X\sim Geom(p),\ q=1-p$일 때, 확률질량함수는
$$PMF:\ P(X=k)=q^kp,\ k\in \big\{0,1,2,···\big\}$$
이때, $PMF$의 합은 1과 같으므로 위의 $PMF$는 유효하다.
$$\sum _{k=0}^\infty pq^k=\frac p{1-q}=1$$
기댓값 - 일반적 접근
$$E(X)=\sum _{k=0}^\infty kpq^k=p\sum _{k=0}^\infty kq^k=p(q(\sum _{k=0}^\infty q^k)')=p(q(\frac 1{1-q})')=\frac {pq}{p^2}=\frac qp$$
기댓값 - Story proof
$X$는 앞면이 나올 확률이 p인 동전을 앞면이 나올 때까지 계속 뒤집고 처음 앞면이 나오기 전까지의 실패 횟수이며, $ c=E(X)$라고 하자.
$$c=0·p+(1+c)q=q+cq=\frac qp$$
$0·p\rightarrow$ 첫 번째 동전에 앞면이므로 0 ⨉ 그렇게 첫 번째 동전이 앞면 나올 확률 p
$(1+c)q\rightarrow$은 (첫 번째 동전 뒷면 1 + 재시작하므로 c ) ⨉ 첫 번째 동전이 뒷면 나올 확률 q
'Academic > Statistics' 카테고리의 다른 글
| 확률론 기초: Statistics 110 _ 확률변수와 확률분포 (0) | 2025.09.17 |
|---|---|
| 확률론 기초: Statistics 110 _ 도박꾼의 파산 문제와 확률변수 (0) | 2025.09.17 |
| 확률론 기초: Statistics 110 _ Monty Hall 문제와 심슨의 역설 (1) | 2025.09.16 |
| 확률론 기초: Statistics 110 _ 조건부 확률과 전확률정리 (0) | 2025.09.15 |
| 확률론 기초: Statistics 110 _ 조건부 확률 (0) | 2025.09.15 |



