6 minute read

Bayesian filtering에 기반한 이론을 공부하다 보면 조건부 확률 밀도 함수(conditional probability density function, CPDF)와 우도 함수(likelihood function)을 혼용하여 사용하는 경우가 많습니다. 둘은 어떤 차이가 있을까요?


1. CPD와 Likelihood의 정의

먼저 조건부 확률 밀도 함수(conditional probability denstiy function)을 나타낸 아래의 식을 보겠습니다.

\[p(O|\theta)\]

조건부 확률밀도는 $\theta$라는 모델이 주어졌을 때 샘플 $O$(observace)가 가지는 값이며, 확률 모델은 상수로 주어진 상황이며 변수는 샘플입니다. 또한, 확률밀도함수는 정의역 (이 경우 모든 샘플)에 대하여 적분시 1이 나오도록 정의한다는 특성을 가집니다.

이번엔 우도 함수 (likelihood function)을 나타낸 아래의 식을 보겠습니다.

\[L(\theta|O)\]

우도는 $O$라는 샘플이 주어졌을 때, $\theta$라는 모델이 가지는 값이며, 여기서 변수는 확률 모델입니다. 우도는 정의역 (이 경우 가능한 모든 확률 모델)에 대해서 적분해서 1이 나온다는 전제 조건이 애초에 없으며, 반례도 쉽게 검색해서 찾아볼 수 있습니다. 우도는 어떤 샘플에 대하여 확률모델이 가지는 ‘그럴듯한 정도’를 뜻할 뿐입니다. 영어 ‘likelihood’와 한자 우도(尤度)를 번역하다 보니 표현이 ‘그럴듯한 정도’가 최선인 것 같은데, 풀어서 말하자면 ‘확률모델이 샘플을 대표할 수 있는 정도’라고 보시면 됩니다.


2. CPD와 Likelihood의 관계

앞에서 보신 것 처럼 정의역부터 다르니까 확실히 다른 함수라는 것은 알겠습니다. 근데 ‘정의역에 대해서 적분 시 1의 값을 가진다’고 수학적으로 정의된 확률밀도함수와 달리 우도는 아직 수학적으로 나타낼 수단이 아직 소개된 것 같지 않습니다.

우린 사실 실제 세상에서 확률 모델을 정확히 알 수 없습니다. 심지어 동전던지기 의 앞/뒤 확률마저 0.5가 아니다라는 것을 수학적으로 증명한 논문도 있습니다.

그렇기 때문에 어떤 확률 변수의 밀도함수를 미리 알고 있다는 것은 불가능하며, 우리는 단지 샘플들($O$)을 가지고 확률 모델($\theta$)을 추측할 뿐입니다. 샘플이 주어질 때 확률모델이 이를 대표할 수 있는 정도를 우도($L(\theta|O)$)라고 했고, 우리는 이 값이 최대가 되는, 즉 maximum likelihood를 가지게 하는 확률모델 $\theta$를 찾아야 합니다.

한편, 최댓값을 구하기 위해서는 우도를 수치적으로 표현해야 하며, 이를 위해 확률 변수에 대해서 적분시 1이라는 값을 가지는 확률밀도함수가 도입된 것입니다. 따라서 어떤 샘플 $O$가 주어졌을 때 확률 모델 $\theta$가 가지는 우도는, 아래 식과 같이 모델 $\theta$를 따르는 샘플이 확률 밀도함수 내에서 가지는 값으로 표현하기로 했습니다.

\[L(\theta|O)=p(O|\theta)\]

즉! 실제 세상에서 확률 모델을 추정하기 위해 우도가 도입됐고, 우도를 수치적으로 표현하기 위해 위와 같은 등식이 성립하는 것입니다. 따라서 위 식은 정의역이 확률 모델인 likelihood funciton을 정의역이 확률 변수인 probability density function으로의 변환식으로 해석할 수 있습니다.

식으로만 보니까 헷갈리네요! 그럼 Gaussian distribution을 활용해서 예시를 들어보겠습니다. 평균이 $\mu$, 그리고 표준편차가 $\sigma$인 normal distribution의 probability density function은 다음과 같습니다.

\[f(x)=\frac{1}{\sqrt{2\pi}}\exp^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}\]

이 때,
Ex1) 확률 표본 $x_{k}=0$에 대한 standard normal distribution의 우도

\[L(N(0,1)|x_k=0)=\frac{1}{\sqrt{2\pi}}\exp^{0}\approx0.39894\]

Ex2) 동일한 표본에 대한 $N(1,1)$의 우도

\[L(N(1,1)|x_k=0)=\frac{1}{\sqrt{2\pi}}\exp^{-\frac{1}{2}}\approx0.24197\]

따라서 확률 표본 $x_{k}=0$에 대해서는 standard normal distribution의 우도가 더 크므로, standard normal distribution이 확률표본이 0인 경우를 더 잘 대표합니다. (more likely)


3. Bayesian Filtering 에서 CPD와 Likelihood

Bayesian filtering에서 자주 사용되는 표현식을 봅시다.

\[p(z_{k}|x_{k})\]

위 식은 $x_{k}$가 따르는 확률 분포가 주어질 때 $z_{k}$가 가지는 확률 밀도 값으로, 이는 $x_k$가 따르는 확률 분포의 측정치에 대한 likelihood로, 흔히 measurement likelihood로 불립니다. 그 다음 식을 보겠습니다.

\[p(x_{k}|z_{1:k})\]

이 식에서 $z_{1:k}$ 는 시점이 1인 순간부터 k 인 순간까지 주어진 측정치를 말하며, 현재의 확률 모델에 이 측정치가 반영되어있다는 표현을 뜻합니다. 따라서 위 표현식은 $x_{k}$에 대해서 확률 모델($z_{1:k}$가 주어진)이 가지는 likelihood 값이 되며, 측정치가 주어지고 나서 x의 확률분포로 그 값이 표현되므로 보통 posterior density로 불립니다.

한편, $x_k$의 posterior density function은 Bayes rule에 의해 다음과 같이 measurement likelihood를 포함하도록 분해됩니다.

\[p(x_{k}|z_{1:k})=\frac{p(z_k|x_k)p(x_k|z_{1:k-1})}{p(z_k|z_{1:k-1})}\]

위 식의 우변의 경우 $z=Hx+v$와 같은 측정치 모델이 주어지기 때문에 우측의 식은 x에 대해서 나타날 수 있게되므로, 확률 모델에 대한 함수인 likelihood를 샘플 x_k에 대한 함수로 나타날 수 있게 됩니다. 여기서 확률 모델이 maximum likelihood를 가지도록 x_k를 구하는 과정에서 칼만 필터가 유도되게 됩니다.

참고로 보통 $x_k$를 추정하는데 관심이 있기 때문에, 똑같이 조건부 확률변수 형태로 표기하더라도 $p(x_{k}|blabla)$는 density의 이름으로, $p(z_{k}|blabla)$ 형태는 ($z_k$의 density 보다는) likelihood로 부릅니다. 따라서 위 식에서 $p(x_k|z_{1:k-1})$는 prior density, $p(z_k|z_{1:k-1})$는 predicted likelihood로 부릅니다.


4. 결론
  1. Likelihood function과 CPDF는 의미하는 바가 다른 함수가 맞다.
  2. 다만 CPD는 Likelihood의 값을 표현하는 역할을 할 뿐이다.
  3. 특정 샘플 $\alpha$ 에 대한 확률 분포 $\theta$ 의 Likelihood 값은 적분시 1이 되도록 정의된 PDF $\theta$ 에 대하여 샘플 $\alpha$ 에서의 확률밀도 값으로 나타낸다.
  4. Bayesian filtering에서 posterior density 는 추정치에 대한 모델의 likelihood이며, 이를 최대화 하는 추정치를 유도하는 과정에서 칼만필터가 유도된다.

Leave a comment