空놀이 :: 강화학습 - 모두의 연구소 'AI신기술뎐'

강화학습 - 모두의 연구소 'AI신기술뎐'

Machine Learning 2018. 2. 23. 20:25

State, Action, Reward

자율주행 인공지능

1. State

(1) 도로

(2) 차의 위치와 속도

2. Action

(1) Steering

(2) Accel

(3) Break

3. Reward

(1) 잘 갔는지

Agent => action->Environment-> Reward, state -> Agent

입력에 따라 State가 변함

State 가 안변할 수도 있음

써튼 교수님 책 - Slot machine - state가 안변하는 대표적인 사례

최종 목표

Rewards를 최대화 하는 Action 을 구하라

(1) Return - Action At 이후에 받은 모든 Reward의 총합

- but 끝이 없는 task라면?? - 연날리기?

(2) Continuous task

- Discounted Return 을 최대화 하는 행동을 찾음

(3) Gt = Rt + rGt+1

(4) Value Function

- 어떤 state에 놓여 있을 때 expected discounted return (기대 값)을 최대로

(5) Bellman Equation - 굉장히 많이 씀

(6) Markov Decision Process?

(7) Monte Carlo Method

- 뭐라도 해본다.

- 단점 : Episode가 끝나야만 알 수 있다.

(8) Q Function

State에서 어떤 Action을 취했을 때의 return

(9) Policy Based

- State에서 최적의 Action을 알려줌

(10) Deep Deterministic Policy Gradient

우분투에 NVIDIA 드라이버 설치하기 + 텐서플로우 (0)	2017.07.31
[ML] 제5회 Machine Learning Meetup (0)	2015.02.10
인공지능을 이용한 빅데이터 처리 입문 study 정리 (0)	2015.02.08
2015 패턴인식 및 기계학습 겨울학교 (0)	2015.02.08
머신 러닝 공부 관련 볼만한 책 (0)	2015.02.08