1 . scikit-learn 라이브러리

- hmm관련 정식 지원은 종료 되었고 hmmlearn으로 분리 됨


2. hmmlearn

- 평가, 디코딩은 잘 사용할 수 있음

- 학습을 포함한 나머지는 문서가 허접해서 사용하기 힘듬


3. hmmpytk 

'패턴인식 - 오일식 저' 책을 읽다 보니 Cambridge대학에서 만든 HMM Toolkit이 있다는 것을 확인했고 이것을 Python용으로 작업한게 있다고 해서 작업을 해 보려고 했으나 speech recognition 위주로 되어 있어서 내가 사용하려는 것과는 좀 차이가 있어서 보류

주소는 아래와 같다.

https://code.google.com/p/hmmpytk/wiki/Tutorial


4. http://ghmm.org/

많이 사용하는 것 같음 but 아래 블로그에서는 문서가 많지 않다고 평이 안좋음.

그래도 사용해보려고 했으나 내가 개발하고 있는 Mac에 설치가 잘 되지 않아서 사용 실패

http://www.quora.com/What-is-the-best-Python-library-for-Hidden-Markov-Models

LGPL라이센스가 걸려있음

* LGPL 라이센스 : 라이브러리로 개발하고 LGPL을 사용했다는 것만 명시하면 소스코드는 공개하지 않아도 됨

"LGPL은 GPL보다는 훨씬 완화된(lesser) 조건의 공개 소프트웨어 라이센스입니다.

가장 큰 차이점은 LGPL 코드를 정적(static) 또는 동적(dynamic) 라이브러리로 사용한 프로그램을 개발하여 판매/배포할 경우에 프로그램의 소스코드를 공개하지 않아도 된다는 점입니다. LGPL 코드를 사용했음을 명시만 하면 됩니다.

단, LGPL 코드를 단순히 이용하는 것이 아니라 이를 수정한 또는 이로부터 파생된 라이브러리를 개발하여 배포하는 경우에는 전체 코드를 공개해야 합니다." - 출처 : http://darkpgmr.tistory.com/89


5. 학교에서 수업용으로 만든 것 같아 이름은 짓기 어려움

http://www.cs.colostate.edu/~anderson/cs440/index.html/doku.php?id=notes:hmm2

Rabiner의 자연어 인식 알고리즘을 구현한 것 같음

일단 간단하게 적용해볼 수 있을 것 같음


6. YAHMM

앞으로 이걸 사용하게 될 것 같은데 일단 문서도 좀 제대로 되어 있는 편이고 평가, 디코딩은 제대로 구현되고 학습도 잘 구현되어 있는 것 같음

출처 : https://pypi.python.org/pypi/yahmm/0.1.1

내가 구현한 소스 코드는 아래 주소

http://gongnorina.tistory.com/74




Posted by 공놀이나하여보세

이 곳 구현은 아래 user-guide를 토대로 진행 됩니다.

http://www.math.unipd.it/~aiolli/corsi/1213/aa/user_guide-0.12-git.pdf


sklearn.hmm 은 HMM알고리즘을 구현하였다.


HMM에는 기본적으로 세가지 문제가 있다.

(1) 평가 : 주어진 모델의 파라미터(ⓗ) 들과 관측 데이터(O)가 주어졌을 때 최적의 hidden state의 열(sequence)를 예측하는 것

(2) 디코딩 : 주어진 모델의 파라미터(ⓗ) 들과 관측 데이터(O)가 주어졌을 때 데이터의 우도(likelihood)를 계산하는 것

(3) 학습 : 관측 데이터가 주어졌을 때 모델 파라미터(ⓗ)를 예측하는 것


(1)과 (2)는 Viterbi algorithm으로 알려진 동적 프로그래밍(dynamic programming)과 Foward-Backward 알고리즘으로 풀수 있다.

(3)은 Baum-Welch algorithm으로 알려진 Expectation-Maximization(EM)으로 풀 수 있다.


여기까지 읽어봤을 때 '패턴인식-오일식 저' 책의 내용과 일치한다.

아마 책이나 이 user guide다 둘 다 Rabiner89 논문 내용을 토대로 작성되었기 때문일 것 같다.

여튼 계속 짜 봐야지

앞부분을 짜보니 이런 젠장.. 아래와 같은 에러가 발생한다.


//anaconda/lib/python2.7/site-packages/sklearn/utils/__init__.py:75: DeprecationWarning: Class _BaseHMM is deprecated; WARNING: The HMM module and its function will be removed in 0.17as it no longer falls within the project's scope and API. It has been moved to a separate repository: https://github.com/hmmlearn/hmmlearn
  warnings.warn(msg, category=DeprecationWarning)


사이트를 가보니 HMM 이 좀 바뀐 것 같다.

scikit-learn에서 hmmlearn으로 옮겨 간 것 같다

그래서 일단 경고에 있는대로 https://github.com/hmmlearn/hmmlearn 주소로 들어가 시키는대로 하나씩 해보았다.

1. git을 clone 하고

git clone git://github.com/hmmlearn/hmmlearn.git

2. dependency를 확인하고(?)

pip install scikit-learn Python

3. hmmlearn을 git을 받은 폴더에서 설치한다.

python setup.py install

 

설치 후 sclearn을 hmmlearn으로 바꾸고 실행을 해보니 아래와 같은 에러 발생

ImportError cannot import name _hmmc

stack overflow도움으로(https://github.com/hmmlearn/hmmlearn/issues/3)

hmmlearn 폴더를 통채로 복사해버렸다.

sudo cp -rf ./* /usr/local/lib/python2.7/dist-packages/hmmlearn

로 설명을 해줬지만 난 아나콘다를 설치하고 그 환경에서 개발을 하고 있으므로

sudo cp -rf ./* /anaconda/lib/python2.7/site-packages/hmmlearn


로 복사를 해 주었다.


여튼 아래 코드는 실행 완료


import numpy as np

from hmmlearn import hmm


startprob = np.array([0.6, 0.3, 0.1])

transmat = np.array([[0.7, 0.2, 0.1], [0.3, 0.5, 0.2], [0.3, 0.3, 0.4]])

means = np.array([[0.0, 0.0], [3.0, -3.0], [5.0, 10.0]])

covars = np.tile(np.identity(2), (3, 1, 1))

model = hmm.GaussianHMM(3, "full", startprob, transmat)

model.means_ = means

model.covars_ = covars

X, Z = model.sample(100)


하지만, 코드를 실행하면 user-guide 처럼 그래프가 나올 줄 알았으나 나오지 않아서 당황함..

일단 코드 분석

array에 등록하는 것 까지는 ok

np의 tile이 뭘 하는걸까??

일단 구글 검색을 하려다 그냥 '파이썬라이브러리를 활용한 데이터 분석'책을 펴고 tile을 찾아보니 491p에 배열을 복사해 쌓는 메서드라고 나옴

그럼 np.identity로 불러온 배열을 3,1,1만큼 복사하는 것 같다.

print를 뭔지 봐야겠다.

np.identity는 [[ 1. 0.] 기본 배열(? 이름 까먹음)이 생긴다.

                     [ 0.  1.]]

print로 보니 아래로 세개의 배열이 생긴다.

covars [[[ 1. 0.] [ 0. 1.]] [[ 1. 0.] [ 0. 1.]] [[ 1. 0.] [ 0. 1.]]]

그래프 그려주는 건 아래 코드

import numpy as np

import matplotlib.pyplot as plt

from hmmlearn import hmm

############################################################## # Prepare parameters for a 3-components HMM

# Initial population probability

start_prob = np.array([0.6, 0.3, 0.1, 0.0])

# The transition matrix, note that there are no transitions possible # between component 1 and 4

trans_mat = np.array([[0.7, 0.2, 0.0, 0.1],

                      [0.3, 0.5, 0.2, 0.0],

                      [0.0, 0.3, 0.5, 0.2],

                      [0.2, 0.0, 0.2, 0.6]])

# The means of each component

means = np.array([[0.0,  0.0],

                  [0.0, 11.0],

                  [9.0, 10.0],

                  [11.0, -1.0],

])

# The covariance of each component

covars = .5 * np.tile(np.identity(2), (4, 1, 1))

# Build an HMM instance and set parameters

model = hmm.GaussianHMM(4, "full", start_prob, trans_mat,

                        random_state=42)

# Instead of fitting it from the data, we directly set the estimated # parameters, the means and covariance of the components 

model.means_ = means

model.covars_ = covars ###############################################################


# Generate samples

X, Z = model.sample(500)

# Plot the sampled data

plt.plot(X[:, 0], X[:, 1], "-o", label="observations", ms=6, mfc="orange", alpha=0.7)

# Indicate the component numbers

for i, m in enumerate(means):

    plt.text(m[0], m[1], "Component %i" % (i + 1),

             size=17, horizontalalignment="center",

             bbox=dict(alpha=.7, facecolor="w"))

plt.legend(loc="best")

plt.show()


이제 내가 해보고 싶은 것은 '패턴인식 - 오일식저' 의 HMM코드를 파이썬으로 돌려보는 것이다.


이것은 다음에 다루겠다.


Posted by 공놀이나하여보세

아래 주소에서 볼 수 있다.

http://www.math.unipd.it/~aiolli/corsi/1213/aa/user_guide-0.12-git.pdf


python으로 HMM 구현이 된 것을 찾다가 우연히 알게된 user guide

이걸 보고 HMM 구현을 해 보아야겠다.

Posted by 공놀이나하여보세

chapter 3 문자열, 리스트, 튜플, 맵

1. 문자열

nums = '%s: hi %s'

print nums % ('a','10')


2. 리스트

(1) 리스트는 [ ] 사이에 문자열을 담을 수 있음 c의 배열과 같음

(2) append : 항목 추가하기

(3) del wizard_list[5] : 특정 문자 삭제하기

(4) 리스트 연산

+ : 리스트 두개를 앞 뒤로 붙인다.

* : 리스트를 곱하기 숫자만큼 반복


3. 튜플

(1) 튜플은 ( ) 사이에 문자열이나 숫자를 담을 수 있음 java의 final 배열과 같아서 한번 선언하면 수정할 수 없음


4. 맵

리스트와 튜플처럼 어떤 것들의 집합

dict라고도 알려짐

각각의 항목들은 키와 그에 대응하는 값을 갖는다.

각각의 키와 값을 구분하기 위해서 콜론을 사용하며, 각 키와 값은 홑따옴표로 둘러싸인다.


chapter5. if와 else로 물어보자.

None : 아무런 값이 없는 변수


chapter6. 빙글빙글 돌기

print list(range(10, 20))



Posted by 공놀이나하여보세

몬티홀 문제 만으로도 얘기가 길어져서 여기로 따로 빼 두었다.

몬티홀은 베이지안 문제가 아니다. 그냥 확률 문제이다.

이걸 코드로 짜보니 이유를 알겠다.


import random


length = 100000

list = [random.randrange(0,3) for i in range(length)]

#print list


o_true_sum = 0

o_false_sum = 0

c_true_sum = 0

c_false_sum = 0

for i in range(length):

    select = random.randrange(0,3)

    if list[i] == select:

         

        #true_sum+=1

        temp = random.randrange(1,3) + list[i]

        if temp == 3:

            temp = 0

        #print list[i], 'correct', temp        

        o_true_sum+=1

        c_false_sum+=1

        

    else:

        #false_sum+=1

        temp = random.randrange(1,3) + list[i]

        if temp == 3:

            temp = 0

        #print list[i], 'false', temp             

        o_false_sum+=1

        c_true_sum+=1

        

    

print 100 * o_true_sum/length

print 100 * c_true_sum/length


허접하지만 코드를 만들어서 돌려보았다.

만들다 보니 알았다.

바꾸는 것이 맞을 확률이 더 높다. 


왜냐하면 바른 걸 선택할 확률은 1/3 즉 33.3%이다. 

만약 바꾸지 않으면 바른 걸 선택했다는 가정하에 맞출 확률은 100%이다.


틀린걸 선택할 확률은 2/3 즉 66.6%이다.

66.6%에서 선택을 바꾸지 않으면 맞출 확률은 0%

66.6%에서 선택을 바꾸면 맞출 확률은 100%이다. 

왜냐하면 몬티홀이 잘못된 거 하나를 빼주었기 때문이다.

따라서 틀린걸 선택한 경우 바꾸면 맞출 확률은 100%이다.


게스트는 처음 선택이 틀릴 확률이 66.6%로 맞출 확률이 33%보다 2배 높다.

그렇기 때문에 게스트는 자신이 처음에 틀렸다는 가정하에 결정을 해야 한다.

게스트가 자신이 틀렸다는 가정을 하고나서 결정을 해야 한다면 그렇다.

자신의 답을 바꾸면 맞출 확률이 100%가 되므로 선택을 바꾸는 것이 확률이 더 높다.



Posted by 공놀이나하여보세

1. virtualenv 및 virtualenvwrapper 설치

virtualenv : 해당 폴더에 환경 파일이 생김

virtualenv wrapper : 로컬에 환경 파일이 생겨서 wrapper를 사용하는 게 좋음



sudo pip install virtualenv

sudo pip install virtualenvwrapper


*환경 설정

mkdir ~/.python_virtual_envs

 

# 아래 내용을 ~/.bashrc 마지막에 저장한다.

export WORKON_HOME=~/.python_virtual_envs

source /usr/local/bin/virtualenvwrapper.sh # 각종 PATH 등을 설정해줌.


2. 사용 방법

mkvirtualenv STUDY : study라는 환경을 만듬

workon (tab) : 환경이 무엇이 있는지 검색

workon STUDY : study환경 시작

deactivate : 환경 종료


pip freeze > requirements.txt : 환경 설정 저장

pip install -r requirements.txt : 환경 설정 설치


sudo apt-get install python-dev 가 필요할 수도 있음


Posted by 공놀이나하여보세

중고나라 물품의 가격을 산정할 때

가격을 쉽게 가져올 수 있는가?

제품의 상태는 어떻게 판단하나?

A/S 


가격을 예측하는 모델을 만든다.

베이지안 분류기나 의사결정트리 SVM은 가격과 같은 많은 이질적인 속성들에 기반을 둔 숫자 데이터를 예측하기 어렵다.

가격 예측에는 여러 변수들의 최적 가중치를 찾아야 하는데 그것을 자동으로 결정하기 위해 5장에서 개발한 최적화 기법들을 사용


01. 예제 데이터 세트 만들기

와인을 이용한 가격 예측


02. kNN

- k-nearest neighbors : 가장 비슷한 것 몇 개를 찾아 가격들이 대강 같다고 가정하는 것. 

(1) 이웃 개수

- k : 마지막 결과를 얻기 위해 평균을 낼 물품의 개수

- 노이즈를 추가함 : 몇 사람은 싸게 구입할 것이고 어떤 사람은 비싸게 구입할 수도 있기 때문이다.

- 기술 변수를 적당하게 추가해야 한다. 최적화 기법으로 물품 개수를 선정해야 한다.

(2) 유사도 결정하기

- 유클리디안 거리를 사용한다.

* 다른 곳에서는 피어슨 상관계수, 코사인(자카드, 맨해튼 거리)(?) 사용 가능

* 어떤 걸 사용할 지에 대해서는 좀 알아봐야한다.

kNN은 계산량은 많지만 새로운 데이터가 추가될 때마다 새로 학습하지 않아도 되는 장점이 있다.


03. 물품 가중치

- 이유 : 적정한 거리의 군집을 만들기 위해서 가까운 건 더 가깝게 만들어 주고 먼 것은 더 멀게 만들어 주기 위해서

거리에 가중치를 주는 방법 3가지

- 역 함수 : 거리 값을 1에서 나눈다. 노이즈에 너무 민감할 수 있다.

- 빼기 함수 : 뺀 값이 0보다 작으면 0으로 한다. 하지만 0이 되는 경우 추천을 하지 못하는 경우 발생

- 가우스 함수 : 빨리 계산하기가 어렵지만 적당한 가중치를 만들어 줌

- 가중 kNN

결과들의 평균을 계산하는 대신에 가중 평균(weighted average)을 계산한다.

가중 평균은 각 물품의 가중치(여기서는 가우시안을 사용)에 값을 곱한 후 서로 더하고, 그것을 전체 가중치의 합으로 나눠서 계산


04. 교차 검증(cross-validation)

데이터를 학습 세트와 테스트 세트로 나누는 기법들을 총칭하는 이름

전체 데이터의 5% 정도를 테스트 세트로 만든다. 그러면 나머지 95% 학습 세트가 된다.

실제 결과와 예측의 차이를 구한다.


05. 이질 변수

(1) 축척 조정

거리를 실제 값에 근거하는 방법이 아니라 값을 정규화해서 그 값들이 모두 같은 공간에 있는 것처럼 만드는 방법


06. 축척 최적화

어닐링 최적화를 시도하여 교차 검증이 최적값을 될 수 있는 변수들의 가중치를 찾는다.


07. 불균등 분포

- 어디서 구매했는지에 따라 가격이 달라질 수 있으므로 해당 위치의 데이터를 더 면민히 관찰해야 한다.

- 확률 밀도 추정하기

단일 가격을 예측하기 보다는 물품이 특정 가격 범위 내에 떨어질 확률을 계산


뒷부분엔 이베이를 활용하여 가격을 예측하였다.



Posted by 공놀이나하여보세

2.1 분포

- 어떤 값과 그 값이 나타날 확률의 집합

PMF(probability mass function) - 확률 질량 함수

Thinkbayes.py에 정의된 파이썬 모듈


*삽질기

from thinkbayes import Pmf 를 하고 나면 아래와 같은 에러가 발생했다.

File "thinkbayes.py", line 88 if x <= xs[0]: ^ SyntaxError: invalid syntax



맥을 사용하는데 미숙한 내가 웹브라우져에서 '파일->별도 저장' 으로 저장을 했더니 thinkbayes.py 파일에 웹코드가 들어간 문제였다.

그래서 그냥 웹브라우져에 있는 파일을 긁어서 thinkbayes.py로 새로운 파일을 만들고 붙여 넣기를 하여 사용했다.


2.2 쿠키 문제

쿠키 문제를 잘 읽어봐야 2.3장이 이해가 간다.

pmf.Set : 가설에 대한 사전 확률값을 설정함

pmf.Mult : 우도 값을 설정하면 위에서 설정한 확률 값을 곱해준다.

pmf.Normalize : 정규화를 해준다. 그런데 왜 정규화를 해주는지 책으로는 잘 모르겠다.

일단은 Prob를 해주기 전에 정규화를 해 줘야 한다고 생각을 해야겠다.


pmf.Prob : 사후 확률 즉 베이지안 이론에 근거한 결과값을 확인할 수 있다.


2.3 베이지안 프레임워크

아래 코드를 보면 앞에서는 pmf.Set에 확률 값을 넣어줬는데 여기서는 각 가설마다 1이란 값을 넣어줬다.

원래 확률의 총합은 1이 되는 것이지만 여기서는 각각의 값을 넣어준 후 pmf에 들어 있는 가설의 수로 나누어 확률이 표현되는 것 같다.

Normalize라는게 어떻게 보면 위에 1이란 값을 가설의 수로 나누어 확률로 만들어 주는 일도 하는 것이 아닐까 하는 생각이 든다.

__init__함수는 가설의 사전확률 값을 설정하는 것이다. 그런데 이상한 것이 Pmf를 클래스가 인자로 받고 또 Pmf.__init__을 호출하면서 매개변수로 self를 넘긴다는 것이다. 휴 내가 파이썬 문법을 잘 모르니 이게 또 어렵다. 이건 다음에 또 공부해 봐야겠다.

*뒷부분을 보다 보니 class의 인자가 Pmf임을 알 수 있다.

*이것은 Pmf함수를 상속받는 다는 말인 것 같다.

def __init__(self, hypos): Pmf.__init__(self) for hypo in hypos: self.Set(hypo, 1) self.Normalize()


Update는 우도 값을 설정해주는 함수이다.

매개변수인 data는 사후확률을 구하고자 하는 쿠키 이름이다.

이 책에서는 vanilla를 data로 입력하였는데 이 뜻은 vanilla가 선택되었을 때 어느 그릇에서 나왔는지에 대한 사후 확률을 구하기 위해서이다.

self.Likelihood는 data값에 대한 우도 값을 리턴해주는 함수이다. 이 함수는 아래에 정의한다.

    mixes = {

        'Bowl 1':dict(vanilla = 0.75, chocolate = 0.25),

        'Bowl 2':dict(vanilla = 0.5, chocolate = 0.5),

    }

    def Likelihood(self, data, hypo):

        mix = self.mixes[hypo]

        print mix

        like = mix[data]

        print like

        return like


입력한 vanilla가 각 그릇에서 나올 수 있는 사후 확률을 구해준다. 

for hypo, prob in pmf.Items():

    print hypo, prob


2.4 몬티 홀 문제

다시 몬티 홀 문제이다.

1장에서 몬티 홀 문제가 나왔는데 이해를 하지 못했다.

파이썬 코드를 풀어보며 이해가 될 지 안될지 한번 해보자 ㅋㅋ


A B C 세개의 가설을 입력으로 받는다.

'B'를 update에 입력한다. 앞에서 봤지만 update에 입력하는 값은 사후확률을 구하고자 하는 값이다. 

헉!!! 앞에서 가설은 그릇이었고 update에 입력하는 값은 그릇에 들어있던 쿠키였는데 여기서는 가설 중에 하나인 'B'를 입력한다 왜지??????


Likelihood함수를 보니 내용이 바꼈다.

가설과 데이터('B')가 같으면 우도가 0이고 가설이 'A'이면 우도가 0.5 가설이 'C'이면 우도가 1이다.

왜???? 이건 결국 다시 1장으로 돌아가 공부를 하고 와야한다. ㅠㅠ

다시 정리해보자.

A B C 세개의 문자 중 한개의 뒤에 자동차가 있다.

게스트가 'A'를 선택했다.

그러자 호스트가 'B'뒤에 아무것도 없는 것을 보여주었다.

그러면서 'C'로 바꿀 것이냐 말 것이냐를 물어본다.

그럼 게스트는 'C'를 선택하는 것이 옳으냐 'A'를 선택하는 것이 옳으냐이다.

여기서 'A'랑 'C' 둘 중에 하나를 고르는 것이니 확률은 1/2이 아닌가??


이해가 잘 가지 않아 파이썬으로 몬티 홀 문제를 짜서 실제로 돌려보았다.

아래 주소에서 확인 가능하다.

http://gongnorina.tistory.com/55


likelihood 함수를 다시 보자.
    def Likelihood(self, data, hypo):
        if hypo == data:
            return 0
        elif hypo == 'A':
            return 0.5
        else:
            return 1


사실 likelihood함수가 잘 이해가 가지 않는다.

몬티 홀은 알겠지만 여전히 이 함수는 이상하다. 

이건 또 다음에 더 보자.


2.5 프레임워크 캡슐화

여기서는 thinkbayes파일의 Suite함수에 대해 설명하고 있다.

Suite함수는 Pmf를 상속받은 베이지안용 클래스이다.

몬티 홀은 Likelihood 함수만 내용이 좀 달라지므로 Likelihood함수만 다시 작성해 주었다.


2.6 M&M문제

Suite를 이용하여 M&문제를 풀어보았다.

역시 Likelihood함수만 다시 작업해 주었다.


Likelihood함수가 역시 또 어렵다.

여기서 data는 bag, color 두개나 리턴한다.

그건 Update에서 data를 두개 넣어주었기 때문이다.

이것보다 더 특이한건 Update를 두개 넣어준 것이다.

bag1에서 yellow, bag2에서 green이 나올 화률을 토대로 bag1과 bag2 의 확률을 구하는 문제인데 이렇게 Update를 여러개 넣는 방법에 대해서는 이야기해준 적이 없다.


2.7.토의

이렇게 이번장이 끝났다.

몬티 홀이 뭔지 알 수 있었고

Suite라는 인터페이스에 대해서 알 수 있었다.

우리는 Likelihood라는 함수만 재정의 해주면 된다.


하지만 오늘 공부에서 의문점이 몇가지 있다.

이 문제는 또 시간이 지나면서 해결되지 않을까 하는 생각이 든다.

(1) 몬티홀 문제에서 Likelihood를 이렇게 정의한 까닭은?

왜 'A'는 0.5고 elif는 1인지??

(2)  M&M문제에서 Update를 두개나 넣어준 이유는??


답을 아는 분이 계시면 답문 주세요~^^

Posted by 공놀이나하여보세

이거 혼자 공부하려니 어렵군요.

1.6 M&M문제

문제는 '노랑 초콜렛이 1994년에 생산한 봉지에서 나왔을 확률은 얼마인가?'입니다.

문제를 잘 풀어보면 '노랑 초콜렛은 1994년 봉지에서 나오고, 초록 초콜렛은 1996년 봉지에서 나올 확률이다.'

정의를 잘 살펴보자

A: 봉지 1은 1994년에 생산했을 때 봉지 2는 1996년에 생산했다.

B: 봉지 1은 1994년에 생산했을 때 봉지 2는 1996년에 생산했다.


A의 경우를 계산해보자.

1) p(H) : 사전확률. p(H)라고 되어 있지만 실직적으로 p(A)의 확률이다. p(A) = 1/2이다.

2) H는 Hypothesis이다. 여기서는 A이다.

3) D는 Data이다. 노랑과 초록이 선택될 확률이다

4) 노랑과 초록은 독립이므로 수식은 아래와 같다.

p(D|H) = p(노랑|1994) * p(초록|1996) = 0.20 * 0.20 = 0.004

5) p(H|D) = p(H)p(D|H) / p(D)이다. 


여기서 p(D)를 구하는 법이 나오지 않았다.

p(D) = p(A) * p(노랑|1994)*p(초록|1996) + p(B) * p(노랑|1996)*p(초록|1994)이다

p(D) = p(D|H)(가설A에서 나온 것) + p(H|D)(가설 B에서 나온 것) 이 되고

이것은

p(D) = 1/2 * 0.004 + 1/2 * 0.0014  = 0.0027이다.


책에서 문제는 가정 A의 사후확률을 구하는 것이므로 답은 0.002/0.0027 = 20/27이다.

약간 헷깔리는 것은 책에서 문제가 가정 A의 사후확률을 구하는 것인가? 이다. ㅋㅋ

=> 23페이지를 보면 'p(H|D)는 여기서 계산하고자 하는 데이터를 확인한 이후의 가설 확률로, 사후 확률이라고 한다.' 라고 되어 있으니 문제는 사후 확률을 구하는 것이 맞다.


1.7 몬티홀 문제

이건 이해가 잘 가지 않는다.

우도를 A의 경우에는 1/2로 하고 C의 경우에는 1로 주었다. 왜일까?

우도의 뜻을 내가 좀 더 정확하게 이해를 해야할 것 같다.

=> 이 문제는 2장에 python코드로 푸는 문제가 있으니 코드를 보며 잘 이해해 보도록 하자.



Posted by 공놀이나하여보세

* 소감


* 의사 결정 트리 * 

의사결정트리의 목적 : 사용자가 유료 고객이 될 가망성을 예측. 사용자가 고객이 될 것임을 시사하는 요소를 알았다면 이 정보를 이용해서 광고 전략을 짜거나 사이트의 특정 측면에 쉽게 접근할 수 있게 만들거나 유료 고객의 숫자를 늘리는 데 도움이 되는 다른 전략들을 사용할 수 있다.


 - 해석이 쉬움

01. 가입 유형 추정

a. 서버 로그에서 방문 전 사이트, 지정학적 위치, 로그인 전에 본 페이지 수 등과 같은 정보를 모은다.


02. 의사 결정 트리 소개 

a.  단지 각 질문에 올바른 대답을 하면서 트리 내 경로를 따라 내려가면 결국 해답에 이르게 된다.


03. 트리 학습

a. 이 장에서는 CART(Classification and RegressionTrees)란 알고리즘 사용

- 루트 노드를 만든다.

- 테이블 안의 모든 관찰들을 고려해서 데이터를 분리하는 최적의 변수 선정

- 변수 선정을 위해 분리할 만한 조건을 가진 모든 변수들을 살펴본다.

- 사용자가 추정하기 편한 방법으로 결과물(사용자가 어떤 서비스에 가입할지)을 분할할 조건을 찾는다.


04. 최적 단편 선정

a. 소프트웨어 솔루션에서 사용할 변수를 선정하기 위해서는 집합의 혼합정도를 판단할 방법이 필요

b. 가능한 잘 섞이지 않은 두 집합을 선정하는 변수를 찾는 것

c. 지니 불순도(Gini impurity) : 집합 내의 결과 중 하나가 그 집합 내의 항목 중 하나에 무작위로 적용될 기대 오류율

d. 엔트로피 : 집합 내의 순서 불일치 정도

- 모든 다른 결과에 대한 p(x)log(p(x))의 총합


05. 재귀적으로 트리 만들기

a. 속성이 얼마나 좋은지 보기 위해 알고리즘은 먼저 전체 그룹의 엔트로피를 계산

b. 각 속성의 가능한 값으로 그룹을 나누고 새로운 두 그룹의 엔트로피를 계산

c. 어떤 속성이 가장 잘 나누는지를 결정하기 위해 정보이득(information gain)을 계산

d. 정보 이득 : 현재의 엔트로피와 새로운 두 그룹의 가중평균 엔트로피 간의 차

e. 알고리즘은 모든 속성마다 정보 이득을 계산하여 가장 높은 정보이득을 가진 것을 선택


06. 트리 출력하기

a. 재귀 함수 이용

b. 그래프 출력


07. 새로운 관찰 분류


08. 트리 가지치기(pruning)

a. 완전한 노트를 만든 후 불필요한 노드를 제거(overfitting 방지)

b. 노드 쌍을 병합해서 특정 경계값 이하로 엔트로피를 늘릴 수 있는지 보기 위해 공통 부모를 가지고 있는 노드 쌍을 검사.

c. 두 쌍을 가능한 모든 출력을 가진 한 개 노드로 병합(?)

Pruning involves checking pairs of nodes that have a common parent to see if merg- ing them would increase the entropy by less than a specified threshold. If so, the leaves are merged into a single node with all the possible outcomes.


09. 손상된 데이터 다루기

a. 때로는 데이터 세트가 정보조작을 잃어버리는 경우가 있다.


10. 숫자 결과 다루기

a. 앞에서는 분류 출력을 다루는 문제였음

b. 앞으로는 집 가격이나 인기도를 모델링하는 데 사용되는 숫자 출력


11. 주택 가격 모델링

a. 부동산 가격을 의사결정트리로 모델링하는 방법

b. 침실이 있다 든지의 차이에 따른 주택 가격을 분류 하고 가격을 예측함


12. "인기도" 모델링


13. 의사결정트리 활용 시점

a. 학습된 모델을 이해하기 쉽다.

b. 데이터의 확률적 할당이 가능

c. 소수의 가능한 결과를 가진 문제에는 효과적이지만 많은 가능성을 가진 데이터는 효율적이지 않다.

d. 복잡한 변수 조합에 의해 분류가 결정되는 곳에서는 의사 결정트리가 데이터를 분류하기 어려워진다.

 




Posted by 공놀이나하여보세