2부 

김민경 - Financial Security & Machine Learning

1. 신제윤 금융위원장은 금융 보안을 위해 모든 금융권이 이상거래탐지시스템 구축을 환료해야 한다고 촉구했다. 전자 금융업종 규율을 재설계토록 하겠다. 

2. 보안은 클라이언트가 아니라 제공자가 마련해야한다.

3. Fraud(사기꾼) Detection Basics

(1) Outlier Detection - rule base detection, anomaly detection 

(2) Two approaches for treating input

(3) Three kinds of algorithms - 배치 방식에 대해 모델링 방식으로 디텍팅, 모델링을 사용하지 않고 데이터를 사용해서 디텍팅(조금 느림), immune system(면역 시스템에 기반한 것)

(4) Real time fraud detection - 

(5) Not worth spending $200 to stop $20 fraud

(6) The Pareto principile

(7) Resources available for fraud detection are always limited - 3%만 사용 가능

(8) If we cannot outspend??

4. Immune System
(1) 림프구 - 무과립성 백혈구의 일종으로 백혈구의 30프로임
(2) B-cell : 모양을 맞춰보고 안맞으면 죽임 

(3) T-cell : 

5. Artificial Immune  Recognition System

(1) 여러 항원들이 모여서 전체 적으로 across해서 detect함


6. MAchine laerning

(1) Supervised learning

(2) Unsupervised learning

(3) Sei-supervised learning : 지도 + 비지도학습

(4) Reinforcement learning : 강화학습 - 잘못된 것을 다시 피드백

(5) Evolutionary learning : 진화 학습

(6) Meta Learning : landmark of data for classifier 

(7) Genetic algrithm : 행위가 시작적으로 왔을 때 이상한 패턴이 나오면 디텍트함



7. Types of Anomaly

(1) Point Anomalies

(2) Contextual Anmalies

(3) Collective Anomalies


8. Association Rule Mining

(1) FP-Tree - frecate(?) pattern gross


9. Finite State Automata(FSA)

알아서 공부


10. Clustering : 데이터를 모를 때 알아서 segmentation해줌

clustering 후 가우시안 모델링을 하고 각각 커널을 넣어줌


11. Hidden Markov

- Sequence Based Algorithm : small amount of money, instance based algorithms


12. Decision Tree

Profiling?


13. SVM

최대 distance

속도가 느림, 대만대 교수 림 교수, 코세라에 강의가 있음


14. logistic regression

feture


15. Neural Network

- Feed Forward Model


16. anti-k nearest neighbor


17. Classical rule-based


18. Neural Stream

(1) Storage - hadoop : Distributed file system, mapreduce : parallel processing

(2) Algorithms - online learning, batch model, direct data, batch model, direct data

(3) Stream - Neural stream : decetralize decision process, cell base


19. A system based on profiles

기존은 rule base임

각각 사용자의 행위별로 파라미터를 만들고 그 사용자에게 서비스를 제공함 개별적으로 트레이닝 함 - hadoop이 최적이다.


Q&A

1. Hadoop이 스파크보다 좋은 이유

- 스파크(버클리에서 만듬)는 latency를 줄일 수 있다. in memory base라서 불안정하다.

- Hadoop은 안정적이다. 느리더라도 괜찮다.






Posted by 공놀이나하여보세
,