2.1 분포

- 어떤 값과 그 값이 나타날 확률의 집합

PMF(probability mass function) - 확률 질량 함수

Thinkbayes.py에 정의된 파이썬 모듈


*삽질기

from thinkbayes import Pmf 를 하고 나면 아래와 같은 에러가 발생했다.

File "thinkbayes.py", line 88 if x <= xs[0]: ^ SyntaxError: invalid syntax



맥을 사용하는데 미숙한 내가 웹브라우져에서 '파일->별도 저장' 으로 저장을 했더니 thinkbayes.py 파일에 웹코드가 들어간 문제였다.

그래서 그냥 웹브라우져에 있는 파일을 긁어서 thinkbayes.py로 새로운 파일을 만들고 붙여 넣기를 하여 사용했다.


2.2 쿠키 문제

쿠키 문제를 잘 읽어봐야 2.3장이 이해가 간다.

pmf.Set : 가설에 대한 사전 확률값을 설정함

pmf.Mult : 우도 값을 설정하면 위에서 설정한 확률 값을 곱해준다.

pmf.Normalize : 정규화를 해준다. 그런데 왜 정규화를 해주는지 책으로는 잘 모르겠다.

일단은 Prob를 해주기 전에 정규화를 해 줘야 한다고 생각을 해야겠다.


pmf.Prob : 사후 확률 즉 베이지안 이론에 근거한 결과값을 확인할 수 있다.


2.3 베이지안 프레임워크

아래 코드를 보면 앞에서는 pmf.Set에 확률 값을 넣어줬는데 여기서는 각 가설마다 1이란 값을 넣어줬다.

원래 확률의 총합은 1이 되는 것이지만 여기서는 각각의 값을 넣어준 후 pmf에 들어 있는 가설의 수로 나누어 확률이 표현되는 것 같다.

Normalize라는게 어떻게 보면 위에 1이란 값을 가설의 수로 나누어 확률로 만들어 주는 일도 하는 것이 아닐까 하는 생각이 든다.

__init__함수는 가설의 사전확률 값을 설정하는 것이다. 그런데 이상한 것이 Pmf를 클래스가 인자로 받고 또 Pmf.__init__을 호출하면서 매개변수로 self를 넘긴다는 것이다. 휴 내가 파이썬 문법을 잘 모르니 이게 또 어렵다. 이건 다음에 또 공부해 봐야겠다.

*뒷부분을 보다 보니 class의 인자가 Pmf임을 알 수 있다.

*이것은 Pmf함수를 상속받는 다는 말인 것 같다.

def __init__(self, hypos): Pmf.__init__(self) for hypo in hypos: self.Set(hypo, 1) self.Normalize()


Update는 우도 값을 설정해주는 함수이다.

매개변수인 data는 사후확률을 구하고자 하는 쿠키 이름이다.

이 책에서는 vanilla를 data로 입력하였는데 이 뜻은 vanilla가 선택되었을 때 어느 그릇에서 나왔는지에 대한 사후 확률을 구하기 위해서이다.

self.Likelihood는 data값에 대한 우도 값을 리턴해주는 함수이다. 이 함수는 아래에 정의한다.

    mixes = {

        'Bowl 1':dict(vanilla = 0.75, chocolate = 0.25),

        'Bowl 2':dict(vanilla = 0.5, chocolate = 0.5),

    }

    def Likelihood(self, data, hypo):

        mix = self.mixes[hypo]

        print mix

        like = mix[data]

        print like

        return like


입력한 vanilla가 각 그릇에서 나올 수 있는 사후 확률을 구해준다. 

for hypo, prob in pmf.Items():

    print hypo, prob


2.4 몬티 홀 문제

다시 몬티 홀 문제이다.

1장에서 몬티 홀 문제가 나왔는데 이해를 하지 못했다.

파이썬 코드를 풀어보며 이해가 될 지 안될지 한번 해보자 ㅋㅋ


A B C 세개의 가설을 입력으로 받는다.

'B'를 update에 입력한다. 앞에서 봤지만 update에 입력하는 값은 사후확률을 구하고자 하는 값이다. 

헉!!! 앞에서 가설은 그릇이었고 update에 입력하는 값은 그릇에 들어있던 쿠키였는데 여기서는 가설 중에 하나인 'B'를 입력한다 왜지??????


Likelihood함수를 보니 내용이 바꼈다.

가설과 데이터('B')가 같으면 우도가 0이고 가설이 'A'이면 우도가 0.5 가설이 'C'이면 우도가 1이다.

왜???? 이건 결국 다시 1장으로 돌아가 공부를 하고 와야한다. ㅠㅠ

다시 정리해보자.

A B C 세개의 문자 중 한개의 뒤에 자동차가 있다.

게스트가 'A'를 선택했다.

그러자 호스트가 'B'뒤에 아무것도 없는 것을 보여주었다.

그러면서 'C'로 바꿀 것이냐 말 것이냐를 물어본다.

그럼 게스트는 'C'를 선택하는 것이 옳으냐 'A'를 선택하는 것이 옳으냐이다.

여기서 'A'랑 'C' 둘 중에 하나를 고르는 것이니 확률은 1/2이 아닌가??


이해가 잘 가지 않아 파이썬으로 몬티 홀 문제를 짜서 실제로 돌려보았다.

아래 주소에서 확인 가능하다.

http://gongnorina.tistory.com/55


likelihood 함수를 다시 보자.
    def Likelihood(self, data, hypo):
        if hypo == data:
            return 0
        elif hypo == 'A':
            return 0.5
        else:
            return 1


사실 likelihood함수가 잘 이해가 가지 않는다.

몬티 홀은 알겠지만 여전히 이 함수는 이상하다. 

이건 또 다음에 더 보자.


2.5 프레임워크 캡슐화

여기서는 thinkbayes파일의 Suite함수에 대해 설명하고 있다.

Suite함수는 Pmf를 상속받은 베이지안용 클래스이다.

몬티 홀은 Likelihood 함수만 내용이 좀 달라지므로 Likelihood함수만 다시 작성해 주었다.


2.6 M&M문제

Suite를 이용하여 M&문제를 풀어보았다.

역시 Likelihood함수만 다시 작업해 주었다.


Likelihood함수가 역시 또 어렵다.

여기서 data는 bag, color 두개나 리턴한다.

그건 Update에서 data를 두개 넣어주었기 때문이다.

이것보다 더 특이한건 Update를 두개 넣어준 것이다.

bag1에서 yellow, bag2에서 green이 나올 화률을 토대로 bag1과 bag2 의 확률을 구하는 문제인데 이렇게 Update를 여러개 넣는 방법에 대해서는 이야기해준 적이 없다.


2.7.토의

이렇게 이번장이 끝났다.

몬티 홀이 뭔지 알 수 있었고

Suite라는 인터페이스에 대해서 알 수 있었다.

우리는 Likelihood라는 함수만 재정의 해주면 된다.


하지만 오늘 공부에서 의문점이 몇가지 있다.

이 문제는 또 시간이 지나면서 해결되지 않을까 하는 생각이 든다.

(1) 몬티홀 문제에서 Likelihood를 이렇게 정의한 까닭은?

왜 'A'는 0.5고 elif는 1인지??

(2)  M&M문제에서 Update를 두개나 넣어준 이유는??


답을 아는 분이 계시면 답문 주세요~^^

Posted by 공놀이나하여보세
,

이거 혼자 공부하려니 어렵군요.

1.6 M&M문제

문제는 '노랑 초콜렛이 1994년에 생산한 봉지에서 나왔을 확률은 얼마인가?'입니다.

문제를 잘 풀어보면 '노랑 초콜렛은 1994년 봉지에서 나오고, 초록 초콜렛은 1996년 봉지에서 나올 확률이다.'

정의를 잘 살펴보자

A: 봉지 1은 1994년에 생산했을 때 봉지 2는 1996년에 생산했다.

B: 봉지 1은 1994년에 생산했을 때 봉지 2는 1996년에 생산했다.


A의 경우를 계산해보자.

1) p(H) : 사전확률. p(H)라고 되어 있지만 실직적으로 p(A)의 확률이다. p(A) = 1/2이다.

2) H는 Hypothesis이다. 여기서는 A이다.

3) D는 Data이다. 노랑과 초록이 선택될 확률이다

4) 노랑과 초록은 독립이므로 수식은 아래와 같다.

p(D|H) = p(노랑|1994) * p(초록|1996) = 0.20 * 0.20 = 0.004

5) p(H|D) = p(H)p(D|H) / p(D)이다. 


여기서 p(D)를 구하는 법이 나오지 않았다.

p(D) = p(A) * p(노랑|1994)*p(초록|1996) + p(B) * p(노랑|1996)*p(초록|1994)이다

p(D) = p(D|H)(가설A에서 나온 것) + p(H|D)(가설 B에서 나온 것) 이 되고

이것은

p(D) = 1/2 * 0.004 + 1/2 * 0.0014  = 0.0027이다.


책에서 문제는 가정 A의 사후확률을 구하는 것이므로 답은 0.002/0.0027 = 20/27이다.

약간 헷깔리는 것은 책에서 문제가 가정 A의 사후확률을 구하는 것인가? 이다. ㅋㅋ

=> 23페이지를 보면 'p(H|D)는 여기서 계산하고자 하는 데이터를 확인한 이후의 가설 확률로, 사후 확률이라고 한다.' 라고 되어 있으니 문제는 사후 확률을 구하는 것이 맞다.


1.7 몬티홀 문제

이건 이해가 잘 가지 않는다.

우도를 A의 경우에는 1/2로 하고 C의 경우에는 1로 주었다. 왜일까?

우도의 뜻을 내가 좀 더 정확하게 이해를 해야할 것 같다.

=> 이 문제는 2장에 python코드로 푸는 문제가 있으니 코드를 보며 잘 이해해 보도록 하자.



Posted by 공놀이나하여보세
,

* 소감


* 의사 결정 트리 * 

의사결정트리의 목적 : 사용자가 유료 고객이 될 가망성을 예측. 사용자가 고객이 될 것임을 시사하는 요소를 알았다면 이 정보를 이용해서 광고 전략을 짜거나 사이트의 특정 측면에 쉽게 접근할 수 있게 만들거나 유료 고객의 숫자를 늘리는 데 도움이 되는 다른 전략들을 사용할 수 있다.


 - 해석이 쉬움

01. 가입 유형 추정

a. 서버 로그에서 방문 전 사이트, 지정학적 위치, 로그인 전에 본 페이지 수 등과 같은 정보를 모은다.


02. 의사 결정 트리 소개 

a.  단지 각 질문에 올바른 대답을 하면서 트리 내 경로를 따라 내려가면 결국 해답에 이르게 된다.


03. 트리 학습

a. 이 장에서는 CART(Classification and RegressionTrees)란 알고리즘 사용

- 루트 노드를 만든다.

- 테이블 안의 모든 관찰들을 고려해서 데이터를 분리하는 최적의 변수 선정

- 변수 선정을 위해 분리할 만한 조건을 가진 모든 변수들을 살펴본다.

- 사용자가 추정하기 편한 방법으로 결과물(사용자가 어떤 서비스에 가입할지)을 분할할 조건을 찾는다.


04. 최적 단편 선정

a. 소프트웨어 솔루션에서 사용할 변수를 선정하기 위해서는 집합의 혼합정도를 판단할 방법이 필요

b. 가능한 잘 섞이지 않은 두 집합을 선정하는 변수를 찾는 것

c. 지니 불순도(Gini impurity) : 집합 내의 결과 중 하나가 그 집합 내의 항목 중 하나에 무작위로 적용될 기대 오류율

d. 엔트로피 : 집합 내의 순서 불일치 정도

- 모든 다른 결과에 대한 p(x)log(p(x))의 총합


05. 재귀적으로 트리 만들기

a. 속성이 얼마나 좋은지 보기 위해 알고리즘은 먼저 전체 그룹의 엔트로피를 계산

b. 각 속성의 가능한 값으로 그룹을 나누고 새로운 두 그룹의 엔트로피를 계산

c. 어떤 속성이 가장 잘 나누는지를 결정하기 위해 정보이득(information gain)을 계산

d. 정보 이득 : 현재의 엔트로피와 새로운 두 그룹의 가중평균 엔트로피 간의 차

e. 알고리즘은 모든 속성마다 정보 이득을 계산하여 가장 높은 정보이득을 가진 것을 선택


06. 트리 출력하기

a. 재귀 함수 이용

b. 그래프 출력


07. 새로운 관찰 분류


08. 트리 가지치기(pruning)

a. 완전한 노트를 만든 후 불필요한 노드를 제거(overfitting 방지)

b. 노드 쌍을 병합해서 특정 경계값 이하로 엔트로피를 늘릴 수 있는지 보기 위해 공통 부모를 가지고 있는 노드 쌍을 검사.

c. 두 쌍을 가능한 모든 출력을 가진 한 개 노드로 병합(?)

Pruning involves checking pairs of nodes that have a common parent to see if merg- ing them would increase the entropy by less than a specified threshold. If so, the leaves are merged into a single node with all the possible outcomes.


09. 손상된 데이터 다루기

a. 때로는 데이터 세트가 정보조작을 잃어버리는 경우가 있다.


10. 숫자 결과 다루기

a. 앞에서는 분류 출력을 다루는 문제였음

b. 앞으로는 집 가격이나 인기도를 모델링하는 데 사용되는 숫자 출력


11. 주택 가격 모델링

a. 부동산 가격을 의사결정트리로 모델링하는 방법

b. 침실이 있다 든지의 차이에 따른 주택 가격을 분류 하고 가격을 예측함


12. "인기도" 모델링


13. 의사결정트리 활용 시점

a. 학습된 모델을 이해하기 쉽다.

b. 데이터의 확률적 할당이 가능

c. 소수의 가능한 결과를 가진 문제에는 효과적이지만 많은 가능성을 가진 데이터는 효율적이지 않다.

d. 복잡한 변수 조합에 의해 분류가 결정되는 곳에서는 의사 결정트리가 데이터를 분류하기 어려워진다.

 




Posted by 공놀이나하여보세
,
ipython notebook을 몇일 써 본 결과
py파일을 저장하기가 쉽지가 않다.
그래서 간단한 테스트는 ipython으로 하고 py파일은 pycharm으로 개발하기로 했음



Posted by 공놀이나하여보세
,

py파일 첫 줄에 아래 주석을 추가

# -*- coding: utf-8 -*-

출처 : http://develstory.blogspot.kr/2011/05/python.html

Posted by 공놀이나하여보세
,


1. Anaconda 설치 방법

http://continuum.io/blog/raspberry


아래 명령어로 몇 개 인스톨

$ wget http://repo.continuum.io/miniconda/Miniconda-3.5.5-Linux-armv6l.sh
$ md5sum Miniconda-3.5.5-Linux-armv6l.sh
2f37cb775ec3e482280a7bd6b97ee501
$ /bin/bash Miniconda-3.5.5-Linux-armv6l.sh

PATH environment variable 설정이 되면 cmd를 껐다가 다시 켠다.


이용 가능한게 뭔지 우선 체크한 후 conda를 이용해 추가 packages 인스톨을 한다.

$ conda search 48 matches found compatible with environment /home/pi/anaconda: Packages with available versions and build strings: bitarray 0.8.0 py27_0 bsdiff4 1.1.3 py27_0 conda 1.5.0 py27_0 cubes 0.10.2 py27_0 cython 0.18 py27_0 distribute 0.6.34 py27_1 docutils 0.10 py27_0 ...

bitarray 를 설치한다.

$ conda install bitarray
...
$ python
Python 2.7.3 |Continuum Analytics, Inc.| (default, Mar 21 2013, 01:11:54)
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import bitarray
>>> bitarray.test()
installed in: /home/pi/anaconda/lib/python2.7/site-packages/bitarray
bitarray version: 0.8.0
2.7.3 |Continuum Analytics, Inc.| (default, Mar 21 2013, 01:11:54)
[GCC 4.6.3]
......................................................................
...........................................................
----------------------------------------------------------------------
Ran 129 tests in 56.350s

OK
<unittest.runner.TextTestResult run=129 errors=0 failures=0>
>>>

Running the bitarray unittest on a regular machine only takes about a second or two.


2. IPython 설치 방법(python2 기준)

http://www.raspberrypi.org/documentation/usage/python/more.md

sudo apt-get install ipython
sudo apt-get install python-pip
sudo pip install simplejson


3. ipython notebook 설치 방법

- 라즈베라파이 B에서는 좀 느리네요. 라즈베리파이2 구매 예정인데 다시 시도해봐야겠습니다. ㅠㅠ

- 라즈베리파이2에서는 쓸만하네요~ 웹브라우징 빼고 쓸만합니다.

https://arundurvasula.wordpress.com/2014/04/01/remote-ipython-notebook-with-raspberry-pi/

sudo apt-get -y install ipython-notebook
sudo apt-get -y install python-matplotlib python-scipy \
                 python-pandas python-sympy python-nose


Posted by 공놀이나하여보세
,

주의 : 8기가짜리 SD카드를 쓰고 있는데 라즈비안OS외에 XBMC니 뭐니 설치 했더니 용량이 300메가가 남아서 포맷 후 다시 설치 중입니다.

파이썬 개발하실 분은 일단은 라즈비안만 설치하세요.


1. boobs.zip 파일 다운로드

http://www.raspberrypi.org

2. boobs.zip 압축 해제 후 폴더 내 파일을 sd카드로 복사

3. 부팅에서 config파일 수정

http://www.rasplay.org/?p=3786

(1) 한글 설정

en_GB.UTF-8 UTF-8, en_US.UTF-8 UTF-8, ko_kr.UTF-8 UTF-8 세가지 언어를 체크선택 

(2) Time zone설정

asia -> Seoul 설정

(3) 한글 키보드 설정

Generic 105 key (Intl) PC 를 선택 

english(US) 선택

출처 : http://codekin.com/?p=74


맥을 이용한 원격 접속은 아래 주소

다 좋은데 맥을 이용해서 원격접속을 하니 한글 입력이 잘 안되네요 ㅠㅠ

* XRDP 설정법 - 윈도우에서 원격접속하려면 이걸 사용, 맥으로도 CoRD를 깔면 XRDP사용 가능

sudo apt-get update

sudo apt-get upgrade

sudo apt-get install xrdp

출처 : http://cafe.naver.com/openrt/195


맥에 CoRD 설치 주소

http://sourceforge.net/projects/cord/?source=typ_redirect


*tightvncserver로 설정법 - 개인적으로는 XRDP가 더 안정적인 것 같지만 맥에서 접속하려면 어쩔 수 없네요

http://goooodcode.tistory.com/43


고정 ip설정은 아래 주소

http://www.berrycracker.net/archives/512


한글 키보드 설정

아래에서 nabi를 설치하는 것이 더 안정적인 것 같다.

일단 한영키를 먹음

하지만 원격 접속에서는 한글 입력이 잘 안됨 ㅠㅠ


sudo apt-get install nabi

sudo apt-get install im-switch

커맨드 창에서 im-switch 실행 nabi선택

출처 : http://6502.tistory.com/589


한글폰트 설치 필요
$sudo apt-get install ttf-unfonts-core

한글키보드설치
$sudo apt-get install ibus ibus-hangul

http://www.rasplay.org/?p=3786






Posted by 공놀이나하여보세
,


1. 디버거 설정

(1) General Options - Device STM32F10XXG로 설정

(2) Debugger 설정 : RDI로 설정(H-JTAG)

(3) Debugger dll 파일 등록 : c:\program files\H-Jtag\H-Jtag.dll 

(4) Output Convert : Generate additional output 체크, binary로 설정


2. 소스 컴파일

(1) microum에서 uCOS 소스 다운로드

(2) 외부 Crystal에 따른 설정 72Hz로


위 설정만 하면 바로 동작 해야하지만 나의 경우 점퍼 설정을 제대로 해주지 않아 Uart는 동작하지만 task가 생성되지 않는 문제가 발생하였다. 2시간 삽질 끝에 겨우 찾아냄 ㅜㅜ


Posted by 공놀이나하여보세
,

원인 : Python은 기본 8bits char를 가정한다. string내부에 2byte character가 있는경우 에러 발생한다.

해결 : .encode("ENCODE_TYPE") 를 스트링 뒤에 붙이면 된다.
   (ex) fpout.write( str.encode("utf-8") ) 


출처 : http://blog.finsternis.me/m/post/556

'Python > 환경 설정' 카테고리의 다른 글

[Python] virtualenv 환경 설정  (0) 2015.02.21
ipython notebook과 pycharm  (0) 2015.02.14
파이썬에서 한글 주석 사용하기  (0) 2015.02.14
ipython notebook 설치 방법  (0) 2015.02.08
Posted by 공놀이나하여보세
,

2부 

김민경 - Financial Security & Machine Learning

1. 신제윤 금융위원장은 금융 보안을 위해 모든 금융권이 이상거래탐지시스템 구축을 환료해야 한다고 촉구했다. 전자 금융업종 규율을 재설계토록 하겠다. 

2. 보안은 클라이언트가 아니라 제공자가 마련해야한다.

3. Fraud(사기꾼) Detection Basics

(1) Outlier Detection - rule base detection, anomaly detection 

(2) Two approaches for treating input

(3) Three kinds of algorithms - 배치 방식에 대해 모델링 방식으로 디텍팅, 모델링을 사용하지 않고 데이터를 사용해서 디텍팅(조금 느림), immune system(면역 시스템에 기반한 것)

(4) Real time fraud detection - 

(5) Not worth spending $200 to stop $20 fraud

(6) The Pareto principile

(7) Resources available for fraud detection are always limited - 3%만 사용 가능

(8) If we cannot outspend??

4. Immune System
(1) 림프구 - 무과립성 백혈구의 일종으로 백혈구의 30프로임
(2) B-cell : 모양을 맞춰보고 안맞으면 죽임 

(3) T-cell : 

5. Artificial Immune  Recognition System

(1) 여러 항원들이 모여서 전체 적으로 across해서 detect함


6. MAchine laerning

(1) Supervised learning

(2) Unsupervised learning

(3) Sei-supervised learning : 지도 + 비지도학습

(4) Reinforcement learning : 강화학습 - 잘못된 것을 다시 피드백

(5) Evolutionary learning : 진화 학습

(6) Meta Learning : landmark of data for classifier 

(7) Genetic algrithm : 행위가 시작적으로 왔을 때 이상한 패턴이 나오면 디텍트함



7. Types of Anomaly

(1) Point Anomalies

(2) Contextual Anmalies

(3) Collective Anomalies


8. Association Rule Mining

(1) FP-Tree - frecate(?) pattern gross


9. Finite State Automata(FSA)

알아서 공부


10. Clustering : 데이터를 모를 때 알아서 segmentation해줌

clustering 후 가우시안 모델링을 하고 각각 커널을 넣어줌


11. Hidden Markov

- Sequence Based Algorithm : small amount of money, instance based algorithms


12. Decision Tree

Profiling?


13. SVM

최대 distance

속도가 느림, 대만대 교수 림 교수, 코세라에 강의가 있음


14. logistic regression

feture


15. Neural Network

- Feed Forward Model


16. anti-k nearest neighbor


17. Classical rule-based


18. Neural Stream

(1) Storage - hadoop : Distributed file system, mapreduce : parallel processing

(2) Algorithms - online learning, batch model, direct data, batch model, direct data

(3) Stream - Neural stream : decetralize decision process, cell base


19. A system based on profiles

기존은 rule base임

각각 사용자의 행위별로 파라미터를 만들고 그 사용자에게 서비스를 제공함 개별적으로 트레이닝 함 - hadoop이 최적이다.


Q&A

1. Hadoop이 스파크보다 좋은 이유

- 스파크(버클리에서 만듬)는 latency를 줄일 수 있다. in memory base라서 불안정하다.

- Hadoop은 안정적이다. 느리더라도 괜찮다.






Posted by 공놀이나하여보세
,