State, Action, Reward


자율주행 인공지능 

1. State

(1) 도로

(2) 차의 위치와 속도


2. Action

(1) Steering

(2) Accel

(3) Break


3. Reward

(1) 잘 갔는지


Agent => action->Environment-> Reward, state -> Agent


입력에 따라 State가 변함

State 가 안변할 수도 있음


써튼 교수님 책 - Slot machine - state가 안변하는 대표적인 사례


최종 목표

Rewards를 최대화 하는 Action 을 구하라



(1)  Return - Action At 이후에 받은 모든 Reward의 총합

- but 끝이 없는 task라면?? - 연날리기? 

(2) Continuous task 

- Discounted Return 을 최대화 하는 행동을 찾음

(3) Gt = Rt + rGt+1

(4) Value Function

- 어떤 state에 놓여 있을 때 expected discounted return (기대 값)을 최대로 


(5) Bellman Equation - 굉장히 많이 씀

(6) Markov Decision Process?

(7) Monte Carlo Method

- 뭐라도 해본다.

- 단점 : Episode가 끝나야만 알 수 있다.

(8) Q Function

State에서 어떤 Action을 취했을 때의 return

(9) Policy Based 

- State에서 최적의 Action을 알려줌


(10) Deep Deterministic Policy Gradient




Posted by 공놀이나하여보세
,