[집단지성프로그래밍] 12. 알고리즘 요약
Machine Learning/[Book]Programming Collective Intelligence -집단 지성 프로그래밍) 2015. 3. 21. 11:56드디어 마지막 장
1. 베이지안 분류기
(1) 감독형 기법이므로 학습되어야 함
(2) 분류기는 보아온 모든 특성과 특성이 특정 분류에 연계될 숫자 확률을 추적하여 학습된다.
(3) 특정 분류에 관한 문서가 주어진 단어를 가질 확률을 생성한다.
(4) 장단점
A. 장점
- 큰 데이터 세트를 학습하고 질의하는 속도가 매우 빠르다. 증분 학습이 필요한 경우에 특히 장점이 있다.
- 실제로 학습한 것에 대한 해석이 다소 단순하다. 각 특성의 확률이 저장되었기 때문에 언제나 데이터베이스를 살펴볼 수 있다.
B. 단점
- 특성의 조합에 기반을 두어 변화하는 출력을 다룰 수 없다.
2. 의사결정 분류기
(1) 학습하기 : 가능한 되적의 방법으로 각 단계에서 데이터를 분리할 속성들을 선택하면서 트리를 만든다.
(2) 장단점
A. 장점
- 학습 모델을 해석하기 쉽다.
- 중요한 요인들을 트리의 상단에 올려놓는다.
- 변수의 상호 작용을 쉽게 다룰 수 있다.
B. 단점
- 회귀트리는 최저 변위를 가지는 평균값으로 데이터를 분할하지만 만일 데이터가 복잡하다면 트리는 정확한 의사결정을 하기 위해 아주 거대해져야 한다.
- 증분 학습을 지원하지 않는다.
3. 신경망
(1) 신경망은 분류와 숫자 예측 문제에 모두 적용할 수 있다.
(2) 분류기
- 가장 높은 숫자를 가진 링크를 사용자가 클릭할 만한 것으로 예측해 모든 링크마다 숫자를 제공
(3) 다층 퍼셉트론망
(4) 장단점
A. 장점
- 복잡한 비선형 함수도 처리할 수 있고 입력들 간의 의존관계도 밝힐 수 있다.
- 증분학습도 가능하며 필요한 공간도 적다.
B. 단점
- 수백 노드와 수천 시냅스를 가질 수 있어 네트워크가 제공한 해답을 어떻게 만들었는지 판단하기 불가능하다.
- 특정 문제에 대한 학습 속도와 네트워크 크기를 선택할 결정적인 규칙이 없다.
4. 지지벡터머신
(1) 대부분의 데이터를 깨끗이 분리하는 선을 찾는다.
(2) 커널 트릭
- 데이터를 다른 축으로 변환하여 선형으로 구분이 되지 않는 걸 선형으로 구분할 수 있게 도와 준다.
(3) LIBSIM 사용하기
(4) 장단점
- 가용할 데이터가 많은 문제에 좀 더 잘 적용된다. 블랙박스 기법이다. 고차원 공간으로 변환하기 때문에 분류하는 방법을 이해하기 어렵다.
A. 장점
- 아주 강력한 분류기. 더 정확하고 더 잘 동작함
B. 단점
- 최적 커널 함수와 이 함수의 인자들이 모든 데이터 세트마다 약간씩 달라 매번 이들을 찾아야 한다.
워낙에 요약된 내용들이라 블로그에 정리할 필요가 없는 것 같아 이만 줄인다.
- django : lastframework
- tasty pi
'Machine Learning > [Book]Programming Collective Intelligence -집단 지성 프로그래밍)' 카테고리의 다른 글
[집단지성프로그래밍] 11. Evolving Intelligence (0) | 2015.03.14 |
---|---|
[ML][집단지성프로그래밍] 9. 고급 분류 기법: 커널 기법과 SVM (0) | 2015.02.28 |
[ML][집단지성 프로그래밍] 8장 가격 모델링 (0) | 2015.02.21 |
[ML][집단지성프로그래밍] 7. 의사 결정 트리 (0) | 2015.02.14 |
[ML][집단지성 프로그래밍] 제5회 Machine Learning Meetup 2부 (0) | 2015.02.10 |