3. 군집화: 관련된 게시물 찾기
Machine Learning/[Book]Build Machine Learning System with Python 2015. 5. 9. 11:001. 군집화 : 유사한 아이템을 같은 군집에 넣고 유사하지 않은 아이템을 다른 군집에 넣음
- 문제 : 텍스트를 유사도를 계산할 수 있는 대체물로 변형해야 한다는 점
- scikit-learn : 군집화를 지원하는 라이브러리
2. 게시물의 관련도 측정
(1) 하지 말아야 하는 방법 : levenshitein distance
(2) 어떻게 해야 하는가
- 단어 주머니(bag-of-words) : 게시물의 모든 단어에 대해, 각 단어의 출현을 세어 벡터(vector)로 나타낸다.
scikit-learn라이브러리를 사용하여 군집화 예제 설명
3. K-means clustering 방법
>>> num_clusters = 50
>>> from sklearn.cluster import KMeans
>>> km = KMeans(n_clusters=num_clusters, init='random', n_init=1,
verbose=1)
>>> km.fit(vectorized)
'Machine Learning > [Book]Build Machine Learning System with Python' 카테고리의 다른 글
2. 실제 예제를 이용한 분류법 학습 (0) | 2015.04.18 |
---|