이거 혼자 공부하려니 어렵군요.

1.6 M&M문제

문제는 '노랑 초콜렛이 1994년에 생산한 봉지에서 나왔을 확률은 얼마인가?'입니다.

문제를 잘 풀어보면 '노랑 초콜렛은 1994년 봉지에서 나오고, 초록 초콜렛은 1996년 봉지에서 나올 확률이다.'

정의를 잘 살펴보자

A: 봉지 1은 1994년에 생산했을 때 봉지 2는 1996년에 생산했다.

B: 봉지 1은 1994년에 생산했을 때 봉지 2는 1996년에 생산했다.


A의 경우를 계산해보자.

1) p(H) : 사전확률. p(H)라고 되어 있지만 실직적으로 p(A)의 확률이다. p(A) = 1/2이다.

2) H는 Hypothesis이다. 여기서는 A이다.

3) D는 Data이다. 노랑과 초록이 선택될 확률이다

4) 노랑과 초록은 독립이므로 수식은 아래와 같다.

p(D|H) = p(노랑|1994) * p(초록|1996) = 0.20 * 0.20 = 0.004

5) p(H|D) = p(H)p(D|H) / p(D)이다. 


여기서 p(D)를 구하는 법이 나오지 않았다.

p(D) = p(A) * p(노랑|1994)*p(초록|1996) + p(B) * p(노랑|1996)*p(초록|1994)이다

p(D) = p(D|H)(가설A에서 나온 것) + p(H|D)(가설 B에서 나온 것) 이 되고

이것은

p(D) = 1/2 * 0.004 + 1/2 * 0.0014  = 0.0027이다.


책에서 문제는 가정 A의 사후확률을 구하는 것이므로 답은 0.002/0.0027 = 20/27이다.

약간 헷깔리는 것은 책에서 문제가 가정 A의 사후확률을 구하는 것인가? 이다. ㅋㅋ

=> 23페이지를 보면 'p(H|D)는 여기서 계산하고자 하는 데이터를 확인한 이후의 가설 확률로, 사후 확률이라고 한다.' 라고 되어 있으니 문제는 사후 확률을 구하는 것이 맞다.


1.7 몬티홀 문제

이건 이해가 잘 가지 않는다.

우도를 A의 경우에는 1/2로 하고 C의 경우에는 1로 주었다. 왜일까?

우도의 뜻을 내가 좀 더 정확하게 이해를 해야할 것 같다.

=> 이 문제는 2장에 python코드로 푸는 문제가 있으니 코드를 보며 잘 이해해 보도록 하자.



Posted by 공놀이나하여보세
,