확률론 기초: Statistics 110 _ 기댓값, 지시확률변수와 선형성

2025. 9. 18. 14:22·Academic/Statistics

본 글은 네이버 부스트코스에서 제공하는 하버드 확률론 기초: Statistics 110 강의를 기초로 정리하였습니다. 

 

 

 

누적분포함수 CDF

실수 $x$에 대한 함수의 누적분포함수 $CDF$는 모든 확률변수에 대해 적용되며, 다음과 같이 나타낼 수 있다. 

$$F(x)=P(X \leq x)$$

 

연속형과 이산형에 따른 누적분포함수의 그래프는 다음과 같다.

연속분포 이산분포

 

 

확률질량함수와 누적분포함수

누적분포함수(이산)에서 확률질량함수는 위 그래프에서의 각 점프의 수직 높이와 같다. 즉, 점프의 수직 높이는 X가 특정 값일 확률. 또한 누적분포함수는 확률질량함수의 단순 합과 같다. 

 

 

누적분포에서 X에 대한 모든 확률을 찾을 수 있다. 

 

누적분포함수 관점에서 $P(1\leq x\leq 3)$을 구해보자. 

 

$X=1$을 기준으로 분할하면,

$$P(X\leq 1P(1<X \leq 3)=P(X\leq 3)$$

$$P(1<X \leq 3)=F(3)-F(1)$$

 

일반화하면

$$P(a<X \leq b)=F(b)-F(a)$$

 

* 부등호와 등호 유의

 

 

누적분포함수의 세 가지 속성

다음 세 가지가 성립한다면, 그 함수는 유효한 누적분포함수라고 할 수 있따. 

 

(1) 감소 없이 유지 또는 증가

(2) 우-연속 함수 right-conditionuous

(3) $F(X) \rightarrow 0\  as \ X \rightarrow - \infty$

     $F(X)\rightarrow 1\ as\ X\rightarrow \infty$

 

 

 

 

확률변수의 독립

만약 모든 $x,\ y$에 대해 $P(X\leq x,\ Y\leq y)=P(X\leq x)P(Y\leq y)$라면, 

확률변수 $X,\ Y$는 독립이다. 

 

이산 분포일 때, 확률변수 $X,\ Y$가 독립이라는 것은 곧

$$P(X= x,\ Y = y)=P(X = x)P(Y = y)$$

 

 

 

 

평균

평균을 구하는 방법에는 평균값, 중앙값, 최빈값, 다양한 가중평균들이 있으며, 아무런 조건이 붙지 않고 '평균'을 물었다면 그 값은 평균값 Means, Expected Value를 의미한다. 

 

 

평균값 구하기

 

(1) 비가중평균

$$\big\{1,1,1,1,1,3,3,5\big\} \rightarrow E(X)=\frac{1+1+1+1+1+3+3+5}8$$

 

(2) 가중평균

동일한 값끼리 그룹을 만들고 각 크기에 따른 가중치(=확률)을 주어 그룹을 활용해 평균을 계산한다. 가능성 높은 값에 높은 가중치, 가능성 낮은 값에 낮은 가중치를 주는 것. 

$$ \big\{1,1,1,1,1,3,3,5\big\} \rightarrow E(X)= \frac 58·1+\frac 28·3+\frac 18·5$$

 

 

 

선형성

선형성은 기댓값의 가장 중요한 속성이다. 

 

$X,\ Y$가 서로 독립적인지 혹은 종속적인 것과는 무관하게 다음을 만족한다.

 

$$E(X+Y)=E(X)+E(Y)$$

$$E(cX)=cE(X)\ when\ c\ is\ a\ constant$$

 

 

 

이산확률변수의 평균

x가 양의 정수라면, 그 평균은 x와 각 특정 속성을 가진 확률의 곱의 합이다. 

$$E(X)=\sum _x xP(X=x)=summed\ over \ x \ with\ P(X=x)>0$$

 

 

예제. 베르누이 분포 $X\sim Bern(p)$

$$E(X)=1·P(X=1)+0·P(X=0)=P$$

 

지시확률변수 $X$는 어떤 사건이 발생하면 1, 그렇지 않다면 0의 확률을 가진다. 

 
 
→ The fundamental bridge
    확률과 기댓값의 관계를 연결

 

 

 

예제. 이항 분포 $X\sim Bin(n,p)$

 

일반적 접근

$E(X)$  
$=\sum _{k=0}^n k\begin{pmatrix}n\\k\end{pmatrix}p^kq^{n-k}$  
$=\sum_{k=0}^n n\begin{pmatrix}n\\n-k\end{pmatrix}p^kq^{n-k}$ like { 위원회 선택 후 대표 선출 = 대표 선출 후에 위원회 선택 }
$=np\sum _{k=1}^n \begin{pmatrix}n-1\\n-k\end{pmatrix}p^{k-1}q^{n-k}$  
$=np\sum _{k=0}^{n-1} \begin{pmatrix}n-1\\j\end{pmatrix}p^jq^{n-1-j}$ $j=k-1$
$=np·1=np$ 이항분포이므로
$\sum _{k=0}^{n-1} \begin{pmatrix}n-1\\j\end{pmatrix}p^jq^{n-1-j}=1$

 

 

선형성 고려한 접근

각각의 베르누이 분포는 p의 확률을 가지고 있고, 총 n개 존재하므로 기댓값의 선형성에 따라 다음과 같이 전개된다. 

$$Bin(n,p)=n·Bern(p)$$

 

이는 곧 다음과 같다. 

$$E(X)=np$$

 

 

 

예제. 초기하분포 $X\sim Hypergeometric(N,m,n)$

앞선 강의의 카드 문제를 선형성을 고려해 풀어볼 수 있다. 

 

총 52장의 카드 덱에서 5장의 카드를 선택할 때, $X= \#\text{ of Aces} $ , 지시확률변수 $ X_j $ 는 $ j $ 번째 카드가 Ace일 지시라고 하자. $ j \in \big\{0, 1, 2, 3, 4\big\} $ 이며 총 다섯 개의 지시확률변수가 존재한다. 이때 $ X_j $ 는 의존적이지만 선형성을 적용할 수 있다. 

 

$E(X)$  
$=E(X_1+···+X_5)$ 지시확률변수
$=E(X_1)+···+E(X_5)$ 선형성 적용
$=5E(X_1)$ 대칭
$=5P(1st\ card\ Ace)$ Fundamental bridge
$=\frac 5{13}$  

 

 

 

예제. 기하분포 $X\sim Geom(p)$

기하분포는 독립적인 베르누이 시행 $Bern(p)$에서 첫 번째 성공 전까지의 실패 횟수 $X$의 확률분포이다. 

 

예를 들어, F F F F F S 인 상황이라면 $P(X=5)=q^5p$ 와 같이 나타낼 수 있다.

 

$X\sim Geom(p),\ q=1-p$일 때, 확률질량함수는 

$$PMF:\ P(X=k)=q^kp,\ k\in \big\{0,1,2,···\big\}$$

 

이때, $PMF$의 합은 1과 같으므로 위의 $PMF$는 유효하다.

$$\sum _{k=0}^\infty pq^k=\frac p{1-q}=1$$

 

 

기댓값 - 일반적 접근

$$E(X)=\sum _{k=0}^\infty kpq^k=p\sum _{k=0}^\infty kq^k=p(q(\sum _{k=0}^\infty q^k)')=p(q(\frac 1{1-q})')=\frac {pq}{p^2}=\frac qp$$

 

 

기댓값 - Story proof

$X$는 앞면이 나올 확률이 p인 동전을 앞면이 나올 때까지 계속 뒤집고 처음 앞면이 나오기 전까지의 실패 횟수이며, $ c=E(X)$라고 하자.

 

$$c=0·p+(1+c)q=q+cq=\frac qp$$

 

$0·p\rightarrow$  첫 번째 동전에 앞면이므로 0 ⨉ 그렇게 첫 번째 동전이 앞면 나올 확률 p

$(1+c)q\rightarrow$은 (첫 번째 동전 뒷면 1 + 재시작하므로 c ) ⨉ 첫 번째 동전이 뒷면 나올 확률 q

 

 

 

 

 

 

'Academic > Statistics' 카테고리의 다른 글

확률론 기초: Statistics 110 _ 확률변수와 확률분포  (0) 2025.09.17
확률론 기초: Statistics 110 _ 도박꾼의 파산 문제와 확률변수  (0) 2025.09.17
확률론 기초: Statistics 110 _ Monty Hall 문제와 심슨의 역설  (1) 2025.09.16
확률론 기초: Statistics 110 _ 조건부 확률과 전확률정리  (0) 2025.09.15
확률론 기초: Statistics 110 _ 조건부 확률  (0) 2025.09.15
'Academic/Statistics' 카테고리의 다른 글
  • 확률론 기초: Statistics 110 _ 확률변수와 확률분포
  • 확률론 기초: Statistics 110 _ 도박꾼의 파산 문제와 확률변수
  • 확률론 기초: Statistics 110 _ Monty Hall 문제와 심슨의 역설
  • 확률론 기초: Statistics 110 _ 조건부 확률과 전확률정리
mila-aa
mila-aa
  • mila-aa
    log-able
    mila-aa
  • 전체
    오늘
    어제
    • 분류 전체보기 (13)
      • Academic (9)
        • Statistics (9)
        • Linear Algebra (0)
        • Algorithm (0)
      • Study (1)
        • SQL (0)
        • Visualization (1)
      • Project (0)
      • Note (0)
        • Why-metrics (0)
        • Issue (0)
        • Thinking (0)
      • Review (1)
        • Article (2)
        • Book (0)
        • Tastes (0)
        • Certificate (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    Statistics 110
    Visualization
    Statistics
    Book
    원씽
    RFM 분석
    데이터리안
    tableau
    린 분석
    데이터 문해력
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
mila-aa
확률론 기초: Statistics 110 _ 기댓값, 지시확률변수와 선형성
상단으로

티스토리툴바