State, Action, Reward
자율주행 인공지능
1. State
(1) 도로
(2) 차의 위치와 속도
2. Action
(1) Steering
(2) Accel
(3) Break
3. Reward
(1) 잘 갔는지
Agent => action->Environment-> Reward, state -> Agent
입력에 따라 State가 변함
State 가 안변할 수도 있음
써튼 교수님 책 - Slot machine - state가 안변하는 대표적인 사례
최종 목표
Rewards를 최대화 하는 Action 을 구하라
(1) Return - Action At 이후에 받은 모든 Reward의 총합
- but 끝이 없는 task라면?? - 연날리기?
(2) Continuous task
- Discounted Return 을 최대화 하는 행동을 찾음
(3) Gt = Rt + rGt+1
(4) Value Function
- 어떤 state에 놓여 있을 때 expected discounted return (기대 값)을 최대로
(5) Bellman Equation - 굉장히 많이 씀
(6) Markov Decision Process?
(7) Monte Carlo Method
- 뭐라도 해본다.
- 단점 : Episode가 끝나야만 알 수 있다.
(8) Q Function
State에서 어떤 Action을 취했을 때의 return
(9) Policy Based
- State에서 최적의 Action을 알려줌
(10) Deep Deterministic Policy Gradient
'Machine Learning' 카테고리의 다른 글
우분투에 NVIDIA 드라이버 설치하기 + 텐서플로우 (0) | 2017.07.31 |
---|---|
[ML] 제5회 Machine Learning Meetup (0) | 2015.02.10 |
인공지능을 이용한 빅데이터 처리 입문 study 정리 (0) | 2015.02.08 |
2015 패턴인식 및 기계학습 겨울학교 (0) | 2015.02.08 |
머신 러닝 공부 관련 볼만한 책 (0) | 2015.02.08 |