scikit-learn을 이용하여 hmm을 사용해보려 하였으나

이런 저런 삽질 끝에 사용하기 쉽지 않다는 것을 확인했다


'패턴인식 - 오일식 저' 책을 읽다 보니 Cambridge대학에서 만든 HMM Toolkit이 있다는 것을 확인했고 이것을 C용으로 작업한게 있다고 해서 작업을 해 보려고 한다.


hmmpytk 인데 주소는 아래와 같다.

https://code.google.com/p/hmmpytk/wiki/Tutorial




Posted by 공놀이나하여보세

7.4.3 학습

관측 벡터 O의 확률을 최대로 하는 모델 ⓗ를 찾는 문제

O로 ⓗ를 직접 구할 수는 없고 중간에 '숨어서' 매개 역할을 하는 변수가 필요하다. 이러한 변수는 이미 3.4.2절의 EM알고리즘에서 등작하였고 은닉 변수(latent variable)라 불렀다.

가우시안 혼합에서는 샘플이 독립 동일 분포에서 발생했다는 가정 하에 요소 분포들을 독립적으로 취급하는 반면 HMM은 분포들이 시간에 따라 관련성을 갖는다고 간주하고 상태 이전 확률을 개입시키는 근본적인 차이가 있다.

알고리즘에서 기대값을 구하는 단계와 우도를 최대화 하는 (Maximum likelihood) 단계로 구성된다.

좌우 모델은 온라인 필기 인식이나 음성 인식 같은 응용에 주로 사용되는데 이런 응용에서는 T가 작다. 대신 하나의 관측이 주어지는 것이 아니라 여러 개가 주어진다. 따라서 다중 관측을 위한 학습이 가능하도록 알고리즘을 변경해야 한다. 이에 대해서는 [Davis02, Rabiner93, Rabiner89]를 참고

일단 책을 읽고 대충 이해는 했는데 양이 워낙 방대하여 쓰지는 못하겠다.

파이썬으로 코드를 짜봐야겠다.


Posted by 공놀이나하여보세

1 . scikit-learn 라이브러리

- hmm관련 정식 지원은 종료 되었고 hmmlearn으로 분리 됨


2. hmmlearn

- 평가, 디코딩은 잘 사용할 수 있음

- 학습을 포함한 나머지는 문서가 허접해서 사용하기 힘듬


3. hmmpytk 

'패턴인식 - 오일식 저' 책을 읽다 보니 Cambridge대학에서 만든 HMM Toolkit이 있다는 것을 확인했고 이것을 Python용으로 작업한게 있다고 해서 작업을 해 보려고 했으나 speech recognition 위주로 되어 있어서 내가 사용하려는 것과는 좀 차이가 있어서 보류

주소는 아래와 같다.

https://code.google.com/p/hmmpytk/wiki/Tutorial


4. http://ghmm.org/

많이 사용하는 것 같음 but 아래 블로그에서는 문서가 많지 않다고 평이 안좋음.

그래도 사용해보려고 했으나 내가 개발하고 있는 Mac에 설치가 잘 되지 않아서 사용 실패

http://www.quora.com/What-is-the-best-Python-library-for-Hidden-Markov-Models

LGPL라이센스가 걸려있음

* LGPL 라이센스 : 라이브러리로 개발하고 LGPL을 사용했다는 것만 명시하면 소스코드는 공개하지 않아도 됨

"LGPL은 GPL보다는 훨씬 완화된(lesser) 조건의 공개 소프트웨어 라이센스입니다.

가장 큰 차이점은 LGPL 코드를 정적(static) 또는 동적(dynamic) 라이브러리로 사용한 프로그램을 개발하여 판매/배포할 경우에 프로그램의 소스코드를 공개하지 않아도 된다는 점입니다. LGPL 코드를 사용했음을 명시만 하면 됩니다.

단, LGPL 코드를 단순히 이용하는 것이 아니라 이를 수정한 또는 이로부터 파생된 라이브러리를 개발하여 배포하는 경우에는 전체 코드를 공개해야 합니다." - 출처 : http://darkpgmr.tistory.com/89


5. 학교에서 수업용으로 만든 것 같아 이름은 짓기 어려움

http://www.cs.colostate.edu/~anderson/cs440/index.html/doku.php?id=notes:hmm2

Rabiner의 자연어 인식 알고리즘을 구현한 것 같음

일단 간단하게 적용해볼 수 있을 것 같음


6. YAHMM

앞으로 이걸 사용하게 될 것 같은데 일단 문서도 좀 제대로 되어 있는 편이고 평가, 디코딩은 제대로 구현되고 학습도 잘 구현되어 있는 것 같음

출처 : https://pypi.python.org/pypi/yahmm/0.1.1

내가 구현한 소스 코드는 아래 주소

http://gongnorina.tistory.com/74




Posted by 공놀이나하여보세