'분류 전체보기' 카테고리의 글 목록 (13 Page)

[Think Bayes] 2.4 몬티 홀 문제 (0)	2015.02.22
[Think Bayes] 1. 베이즈 이론 (0)	2015.02.16

[Think Bayes] 2.4 몬티 홀 문제 (0)	2015.02.22
[Think Bayes] 2. 계산 통계 (0)	2015.02.20

[ML][집단지성프로그래밍] 7. 의사 결정 트리

Machine Learning/[Book]Programming Collective Intelligence -집단 지성 프로그래밍) 2015. 2. 14. 11:04

* 소감

* 의사 결정 트리 *

의사결정트리의 목적 : 사용자가 유료 고객이 될 가망성을 예측. 사용자가 고객이 될 것임을 시사하는 요소를 알았다면 이 정보를 이용해서 광고 전략을 짜거나 사이트의 특정 측면에 쉽게 접근할 수 있게 만들거나 유료 고객의 숫자를 늘리는 데 도움이 되는 다른 전략들을 사용할 수 있다.

- 해석이 쉬움

01. 가입 유형 추정

a. 서버 로그에서 방문 전 사이트, 지정학적 위치, 로그인 전에 본 페이지 수 등과 같은 정보를 모은다.

02. 의사 결정 트리 소개

a. 단지 각 질문에 올바른 대답을 하면서 트리 내 경로를 따라 내려가면 결국 해답에 이르게 된다.

03. 트리 학습

a. 이 장에서는 CART(Classification and RegressionTrees)란 알고리즘 사용

- 루트 노드를 만든다.

- 테이블 안의 모든 관찰들을 고려해서 데이터를 분리하는 최적의 변수 선정

- 변수 선정을 위해 분리할 만한 조건을 가진 모든 변수들을 살펴본다.

- 사용자가 추정하기 편한 방법으로 결과물(사용자가 어떤 서비스에 가입할지)을 분할할 조건을 찾는다.

04. 최적 단편 선정

a. 소프트웨어 솔루션에서 사용할 변수를 선정하기 위해서는 집합의 혼합정도를 판단할 방법이 필요

b. 가능한 잘 섞이지 않은 두 집합을 선정하는 변수를 찾는 것

c. 지니 불순도(Gini impurity) : 집합 내의 결과 중 하나가 그 집합 내의 항목 중 하나에 무작위로 적용될 기대 오류율

d. 엔트로피 : 집합 내의 순서 불일치 정도

- 모든 다른 결과에 대한 p(x)log(p(x))의 총합

05. 재귀적으로 트리 만들기

a. 속성이 얼마나 좋은지 보기 위해 알고리즘은 먼저 전체 그룹의 엔트로피를 계산

b. 각 속성의 가능한 값으로 그룹을 나누고 새로운 두 그룹의 엔트로피를 계산

c. 어떤 속성이 가장 잘 나누는지를 결정하기 위해 정보이득(information gain)을 계산

d. 정보 이득 : 현재의 엔트로피와 새로운 두 그룹의 가중평균 엔트로피 간의 차

e. 알고리즘은 모든 속성마다 정보 이득을 계산하여 가장 높은 정보이득을 가진 것을 선택

06. 트리 출력하기

a. 재귀 함수 이용

b. 그래프 출력

07. 새로운 관찰 분류

08. 트리 가지치기(pruning)

a. 완전한 노트를 만든 후 불필요한 노드를 제거(overfitting 방지)

b. 노드 쌍을 병합해서 특정 경계값 이하로 엔트로피를 늘릴 수 있는지 보기 위해 공통 부모를 가지고 있는 노드 쌍을 검사.

c. 두 쌍을 가능한 모든 출력을 가진 한 개 노드로 병합(?)

Pruning involves checking pairs of nodes that have a common parent to see if merg- ing them would increase the entropy by less than a specified threshold. If so, the leaves are merged into a single node with all the possible outcomes.

09. 손상된 데이터 다루기

a. 때로는 데이터 세트가 정보조작을 잃어버리는 경우가 있다.

10. 숫자 결과 다루기

a. 앞에서는 분류 출력을 다루는 문제였음

b. 앞으로는 집 가격이나 인기도를 모델링하는 데 사용되는 숫자 출력

11. 주택 가격 모델링

a. 부동산 가격을 의사결정트리로 모델링하는 방법

b. 침실이 있다 든지의 차이에 따른 주택 가격을 분류 하고 가격을 예측함

12. "인기도" 모델링

13. 의사결정트리 활용 시점

a. 학습된 모델을 이해하기 쉽다.

b. 데이터의 확률적 할당이 가능

c. 소수의 가능한 결과를 가진 문제에는 효과적이지만 많은 가능성을 가진 데이터는 효율적이지 않다.

d. 복잡한 변수 조합에 의해 분류가 결정되는 곳에서는 의사 결정트리가 데이터를 분류하기 어려워진다.

'Machine Learning > [Book]Programming Collective Intelligence -집단 지성 프로그래밍)' 카테고리의 다른 글

[ML][집단지성프로그래밍] 9. 고급 분류 기법: 커널 기법과 SVM (0)	2015.02.28
[ML][집단지성 프로그래밍] 8장 가격 모델링 (0)	2015.02.21
[ML][집단지성 프로그래밍] 제5회 Machine Learning Meetup 2부 (0)	2015.02.10
[ML][집단지성 프로그래밍] 6. 문서 필터링 (0)	2015.02.07
[ML][집단지성 프로그래밍] 5. 최적화 (0)	2015.02.07

Posted by 공놀이나하여보세

,

ipython notebook과 pycharm

Python/환경 설정 2015. 2. 14. 10:21

ipython notebook을 몇일 써 본 결과

py파일을 저장하기가 쉽지가 않다.

그래서 간단한 테스트는 ipython으로 하고 py파일은 pycharm으로 개발하기로 했음

'Python > 환경 설정' 카테고리의 다른 글

[Python] virtualenv 환경 설정 (0)	2015.02.21
파이썬에서 한글 주석 사용하기 (0)	2015.02.14
UnicodeEncodeError: 'ascii' codec can't encode characters in position : ordinal not in range(128) (0)	2015.02.14
ipython notebook 설치 방법 (0)	2015.02.08

Posted by 공놀이나하여보세

,

파이썬에서 한글 주석 사용하기

Python/환경 설정 2015. 2. 14. 10:21

py파일 첫 줄에 아래 주석을 추가

# -*- coding: utf-8 -*-

출처 : http://develstory.blogspot.kr/2011/05/python.html

'Python > 환경 설정' 카테고리의 다른 글

[Python] virtualenv 환경 설정 (0)	2015.02.21
ipython notebook과 pycharm (0)	2015.02.14
UnicodeEncodeError: 'ascii' codec can't encode characters in position : ordinal not in range(128) (0)	2015.02.14
ipython notebook 설치 방법 (0)	2015.02.08

Posted by 공놀이나하여보세

,

라즈베리 파이에 Python Anaconda, IPython-notebook, PIP 설치 방법

Embedded/Rasberry PI 2015. 2. 14. 10:20

1. Anaconda 설치 방법

http://continuum.io/blog/raspberry

아래 명령어로 몇 개 인스톨

$ wget http://repo.continuum.io/miniconda/Miniconda-3.5.5-Linux-armv6l.sh
$ md5sum Miniconda-3.5.5-Linux-armv6l.sh
2f37cb775ec3e482280a7bd6b97ee501
$ /bin/bash Miniconda-3.5.5-Linux-armv6l.sh

PATH environment variable 설정이 되면 cmd를 껐다가 다시 켠다.

이용 가능한게 뭔지 우선 체크한 후 conda를 이용해 추가 packages 인스톨을 한다.

$ conda search 48 matches found compatible with environment /home/pi/anaconda: Packages with available versions and build strings: bitarray 0.8.0 py27_0 bsdiff4 1.1.3 py27_0 conda 1.5.0 py27_0 cubes 0.10.2 py27_0 cython 0.18 py27_0 distribute 0.6.34 py27_1 docutils 0.10 py27_0 ...

bitarray 를 설치한다.

$ conda install bitarray
...
$ python
Python 2.7.3 |Continuum Analytics, Inc.| (default, Mar 21 2013, 01:11:54)
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import bitarray
>>> bitarray.test()
installed in: /home/pi/anaconda/lib/python2.7/site-packages/bitarray
bitarray version: 0.8.0
2.7.3 |Continuum Analytics, Inc.| (default, Mar 21 2013, 01:11:54)
[GCC 4.6.3]
......................................................................
...........................................................
----------------------------------------------------------------------
Ran 129 tests in 56.350s

OK
<unittest.runner.TextTestResult run=129 errors=0 failures=0>
>>>

Running the bitarray unittest on a regular machine only takes about a second or two.

2. IPython 설치 방법(python2 기준)

http://www.raspberrypi.org/documentation/usage/python/more.md

sudo apt-get install ipython

sudo apt-get install python-pip
sudo pip install simplejson

3. ipython notebook 설치 방법

- 라즈베라파이 B에서는 좀 느리네요. 라즈베리파이2 구매 예정인데 다시 시도해봐야겠습니다. ㅠㅠ

- 라즈베리파이2에서는 쓸만하네요~ 웹브라우징 빼고 쓸만합니다.

https://arundurvasula.wordpress.com/2014/04/01/remote-ipython-notebook-with-raspberry-pi/

sudo apt-get -y install ipython-notebook
sudo apt-get -y install python-matplotlib python-scipy \
                 python-pandas python-sympy python-nose

'Embedded > Rasberry PI' 카테고리의 다른 글

[라즈베리파이] 데이터 분석을 위한 라이브러리 설치 (0)	2015.03.16
[파이썬으로 시작하는 라즈베리파이 프로그래밍] 7. GUI - Tkinter를 이용 (0)	2015.03.13
[라즈베리파이] i2c통신으로 MPU 6050 6축 가속 센서 연결 (파이썬 코드) (0)	2015.03.12
라즈베리파이 qt4 설치 (0)	2015.03.11
라즈베리 파이2 시작하기(라즈베리파이3도 비슷함) (0)	2015.02.14

Posted by 공놀이나하여보세

,

라즈베리 파이2 시작하기(라즈베리파이3도 비슷함)

Embedded/Rasberry PI 2015. 2. 14. 10:20

주의 : 8기가짜리 SD카드를 쓰고 있는데 라즈비안OS외에 XBMC니 뭐니 설치 했더니 용량이 300메가가 남아서 포맷 후 다시 설치 중입니다.

파이썬 개발하실 분은 일단은 라즈비안만 설치하세요.

1. boobs.zip 파일 다운로드

http://www.raspberrypi.org

2. boobs.zip 압축 해제 후 폴더 내 파일을 sd카드로 복사

3. 부팅에서 config파일 수정

http://www.rasplay.org/?p=3786

(1) 한글 설정

en_GB.UTF-8 UTF-8, en_US.UTF-8 UTF-8, ko_kr.UTF-8 UTF-8 세가지 언어를 체크선택

(2) Time zone설정

asia -> Seoul 설정

(3) 한글 키보드 설정

Generic 105 key (Intl) PC 를 선택

english(US) 선택

출처 : http://codekin.com/?p=74

맥을 이용한 원격 접속은 아래 주소

다 좋은데 맥을 이용해서 원격접속을 하니 한글 입력이 잘 안되네요 ㅠㅠ

* XRDP 설정법 - 윈도우에서 원격접속하려면 이걸 사용, 맥으로도 CoRD를 깔면 XRDP사용 가능

sudo apt-get update

sudo apt-get upgrade

sudo apt-get install xrdp

출처 : http://cafe.naver.com/openrt/195

맥에 CoRD 설치 주소

http://sourceforge.net/projects/cord/?source=typ_redirect

*tightvncserver로 설정법 - 개인적으로는 XRDP가 더 안정적인 것 같지만 맥에서 접속하려면 어쩔 수 없네요

~~http://goooodcode.tistory.com/43~~

고정 ip설정은 아래 주소

http://www.berrycracker.net/archives/512

한글 키보드 설정

아래에서 nabi를 설치하는 것이 더 안정적인 것 같다.

일단 한영키를 먹음

하지만 원격 접속에서는 한글 입력이 잘 안됨 ㅠㅠ

sudo apt-get install nabi

sudo apt-get install im-switch

커맨드 창에서 im-switch 실행 nabi선택

출처 : http://6502.tistory.com/589

한글폰트 설치 필요
$sudo apt-get install ttf-unfonts-core

~~한글키보드설치~~
~~$sudo apt-get install ibus ibus-hangul~~

~~http://www.rasplay.org/?p=3786~~

'Embedded > Rasberry PI' 카테고리의 다른 글

[라즈베리파이] 데이터 분석을 위한 라이브러리 설치 (0)	2015.03.16
[파이썬으로 시작하는 라즈베리파이 프로그래밍] 7. GUI - Tkinter를 이용 (0)	2015.03.13
[라즈베리파이] i2c통신으로 MPU 6050 6축 가속 센서 연결 (파이썬 코드) (0)	2015.03.12
라즈베리파이 qt4 설치 (0)	2015.03.11
라즈베리 파이에 Python Anaconda, IPython-notebook, PIP 설치 방법 (0)	2015.02.14

Posted by 공놀이나하여보세

,

STM32F103ZG IAR - ST-Link Debugger 설정 법

Embedded/uCOS2 2015. 2. 14. 10:19

1. 디버거 설정

(1) General Options - Device STM32F10XXG로 설정

(2) Debugger 설정 : RDI로 설정(H-JTAG)

(3) Debugger dll 파일 등록 : c:\program files\H-Jtag\H-Jtag.dll

(4) Output Convert : Generate additional output 체크, binary로 설정

2. 소스 컴파일

(1) microum에서 uCOS 소스 다운로드

(2) 외부 Crystal에 따른 설정 72Hz로

위 설정만 하면 바로 동작 해야하지만 나의 경우 점퍼 설정을 제대로 해주지 않아 Uart는 동작하지만 task가 생성되지 않는 문제가 발생하였다. 2시간 삽질 끝에 겨우 찾아냄 ㅜㅜ

Posted by 공놀이나하여보세

,

UnicodeEncodeError: 'ascii' codec can't encode characters in position : ordinal not in range(128)

Python/환경 설정 2015. 2. 14. 10:18

원인 : Python은 기본 8bits char를 가정한다. string내부에 2byte character가 있는경우 에러 발생한다.

해결 : .encode("ENCODE_TYPE") 를 스트링 뒤에 붙이면 된다.
(ex) fpout.write( str.encode("utf-8") )

출처 : http://blog.finsternis.me/m/post/556

'Python > 환경 설정' 카테고리의 다른 글

[Python] virtualenv 환경 설정 (0)	2015.02.21
ipython notebook과 pycharm (0)	2015.02.14
파이썬에서 한글 주석 사용하기 (0)	2015.02.14
ipython notebook 설치 방법 (0)	2015.02.08

Posted by 공놀이나하여보세

,

[ML][집단지성 프로그래밍] 제5회 Machine Learning Meetup 2부

Machine Learning/[Book]Programming Collective Intelligence -집단 지성 프로그래밍) 2015. 2. 10. 21:42

2부

김민경 - Financial Security & Machine Learning

1. 신제윤 금융위원장은 금융 보안을 위해 모든 금융권이 이상거래탐지시스템 구축을 환료해야 한다고 촉구했다. 전자 금융업종 규율을 재설계토록 하겠다.

2. 보안은 클라이언트가 아니라 제공자가 마련해야한다.

3. Fraud(사기꾼) Detection Basics

(1) Outlier Detection - rule base detection, anomaly detection

(2) Two approaches for treating input

(3) Three kinds of algorithms - 배치 방식에 대해 모델링 방식으로 디텍팅, 모델링을 사용하지 않고 데이터를 사용해서 디텍팅(조금 느림), immune system(면역 시스템에 기반한 것)

(4) Real time fraud detection -

(5) Not worth spending $200 to stop $20 fraud

(6) The Pareto principile

(7) Resources available for fraud detection are always limited - 3%만 사용 가능

(8) If we cannot outspend??

4. Immune System

(1) 림프구 - 무과립성 백혈구의 일종으로 백혈구의 30프로임

(2) B-cell : 모양을 맞춰보고 안맞으면 죽임

(3) T-cell :

5. Artificial Immune Recognition System

(1) 여러 항원들이 모여서 전체 적으로 across해서 detect함

6. MAchine laerning

(1) Supervised learning

(2) Unsupervised learning

(3) Sei-supervised learning : 지도 + 비지도학습

(4) Reinforcement learning : 강화학습 - 잘못된 것을 다시 피드백

(5) Evolutionary learning : 진화 학습

(6) Meta Learning : landmark of data for classifier

(7) Genetic algrithm : 행위가 시작적으로 왔을 때 이상한 패턴이 나오면 디텍트함

7. Types of Anomaly

(1) Point Anomalies

(2) Contextual Anmalies

(3) Collective Anomalies

8. Association Rule Mining

(1) FP-Tree - frecate(?) pattern gross

9. Finite State Automata(FSA)

알아서 공부

10. Clustering : 데이터를 모를 때 알아서 segmentation해줌

clustering 후 가우시안 모델링을 하고 각각 커널을 넣어줌

11. Hidden Markov

- Sequence Based Algorithm : small amount of money, instance based algorithms

12. Decision Tree

Profiling?

13. SVM

최대 distance

속도가 느림, 대만대 교수 림 교수, 코세라에 강의가 있음

14. logistic regression

feture

15. Neural Network

- Feed Forward Model

16. anti-k nearest neighbor

17. Classical rule-based

18. Neural Stream

(1) Storage - hadoop : Distributed file system, mapreduce : parallel processing

(2) Algorithms - online learning, batch model, direct data, batch model, direct data

(3) Stream - Neural stream : decetralize decision process, cell base

19. A system based on profiles

기존은 rule base임

각각 사용자의 행위별로 파라미터를 만들고 그 사용자에게 서비스를 제공함 개별적으로 트레이닝 함 - hadoop이 최적이다.

Q&A

1. Hadoop이 스파크보다 좋은 이유

- 스파크(버클리에서 만듬)는 latency를 줄일 수 있다. in memory base라서 불안정하다.

- Hadoop은 안정적이다. 느리더라도 괜찮다.

'Machine Learning > [Book]Programming Collective Intelligence -집단 지성 프로그래밍)' 카테고리의 다른 글

[ML][집단지성 프로그래밍] 8장 가격 모델링 (0)	2015.02.21
[ML][집단지성프로그래밍] 7. 의사 결정 트리 (0)	2015.02.14
[ML][집단지성 프로그래밍] 6. 문서 필터링 (0)	2015.02.07
[ML][집단지성 프로그래밍] 5. 최적화 (0)	2015.02.07
[ML][집단지성 프로그래밍] 4. 검색과 랭킹 (0)	2015.02.07

Posted by 공놀이나하여보세

,

空놀이

'분류 전체보기'에 해당되는 글 165건

[Think Bayes] 2. 계산 통계

'Machine Learning > [Book]Think Bayes - 파이썬을 활용한 베이지안 통계' 카테고리의 다른 글

[Think Bayes] 1. 베이즈 이론

'Machine Learning > [Book]Think Bayes - 파이썬을 활용한 베이지안 통계' 카테고리의 다른 글

[ML][집단지성프로그래밍] 7. 의사 결정 트리

'Machine Learning > [Book]Programming Collective Intelligence -집단 지성 프로그래밍)' 카테고리의 다른 글

ipython notebook과 pycharm

'Python > 환경 설정' 카테고리의 다른 글

파이썬에서 한글 주석 사용하기

'Python > 환경 설정' 카테고리의 다른 글

라즈베리 파이에 Python Anaconda, IPython-notebook, PIP 설치 방법

'Embedded > Rasberry PI' 카테고리의 다른 글

라즈베리 파이2 시작하기(라즈베리파이3도 비슷함)

'Embedded > Rasberry PI' 카테고리의 다른 글

STM32F103ZG IAR - ST-Link Debugger 설정 법

UnicodeEncodeError: 'ascii' codec can't encode characters in position : ordinal not in range(128)

'Python > 환경 설정' 카테고리의 다른 글

[ML][집단지성 프로그래밍] 제5회 Machine Learning Meetup 2부

'Machine Learning > [Book]Programming Collective Intelligence -집단 지성 프로그래밍)' 카테고리의 다른 글

카테고리

태그목록

최근에 올라온 글

최근에 달린 댓글

글 보관함

달력

링크

티스토리툴바