'2018/02'에 해당되는 글 2건

  1. 2018.02.23 강화학습 - 모두의 연구소 'AI신기술뎐'
  2. 2018.02.03 Docker를 이용해 Caffe 설치

State, Action, Reward


자율주행 인공지능 

1. State

(1) 도로

(2) 차의 위치와 속도


2. Action

(1) Steering

(2) Accel

(3) Break


3. Reward

(1) 잘 갔는지


Agent => action->Environment-> Reward, state -> Agent


입력에 따라 State가 변함

State 가 안변할 수도 있음


써튼 교수님 책 - Slot machine - state가 안변하는 대표적인 사례


최종 목표

Rewards를 최대화 하는 Action 을 구하라



(1)  Return - Action At 이후에 받은 모든 Reward의 총합

- but 끝이 없는 task라면?? - 연날리기? 

(2) Continuous task 

- Discounted Return 을 최대화 하는 행동을 찾음

(3) Gt = Rt + rGt+1

(4) Value Function

- 어떤 state에 놓여 있을 때 expected discounted return (기대 값)을 최대로 


(5) Bellman Equation - 굉장히 많이 씀

(6) Markov Decision Process?

(7) Monte Carlo Method

- 뭐라도 해본다.

- 단점 : Episode가 끝나야만 알 수 있다.

(8) Q Function

State에서 어떤 Action을 취했을 때의 return

(9) Policy Based 

- State에서 최적의 Action을 알려줌


(10) Deep Deterministic Policy Gradient




Posted by 공놀이나하여보세
,

https://gist.github.com/haje01/0fb6d63bf065c9831256



Posted by 공놀이나하여보세
,