[인공지능] 가치 함수 & 벨만 방정식
< 2019-10-09 내용 개정 >
그림 출처 - David Silver 교수님의 RL course 강의 내용](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html)
강화학습의 목적은 에이전트의 상태 s에서 어떤 행동 a 을 해야하는지 결정하는 정책(Policy) 중에 보상 r 을 최대화 하는 최적 정책(Optimal Policy)를 찾는 것이다. 다시 말해 action-value function 을 최대화 해주는 optimal policy 를 찾는 것이다.
정책(Policy)
상태 s 에서 행동 a 를 하게될 확률.
상태 가치 함수(State-value function)
상태 St 에서 받을 수 있는 감가율이 곱해진 모든 보상값의 합 **Gt = Rt+1 + Rt+2 + … **
의 평균을 낸 것이 상태 가치 함수 v(s) 이다. 특정 상태에서 앞으로 받을 보상을 알려준다.
행동 가치 함수(Action-value function, Q-function)
상태 s 에서 행동 a 를 하면 받게되는 감가율이 곱해진 모든 보상값의 합의 평균을 낸 것이 행동 가치 함수 q(s, a) 이다. 행동 가치 함수를 통해 강화 학습시 모델(reward, state transition probability)을 몰라도 학습을 할 수 있게 해준다. 특정 상태에서 어떤 행동이 좋은지 알려준다.
벨만 기대 방정식(Bellman-expectation equation)
정책 π 에서 가치 함수 Vπ(s)를 현재 상태 St 의 보상과 다음 상태 St+1의 보상으로 관계를 나타낸 벨만 방정식으로 나타낸 방정식. 산술적으로 가치 함수를 계산할 수 있도록 해주었다.
정책 평가(Policy Evaluation)
초기에는 에이전트에게 아무 정보가 없기 때문에 벨만 방정식을 통해 모든 상태에 대해서 한 step씩 계산하면서(처음에는 정책이 없으므로 random 하게) update 하고 무한한 시간이 흘렀을 경우 정책 π 을 따를때 상태에 따른 행동을 결정하는 참 가치 함수(True-value function)을 얻을 수 있다. 이러한 과정을 정책 평가라고 한다.
정책 개선(Policy Improvement)
정책에 대한 참 값을 얻은 후 더 나은 정책으로 update 하여 optimal한 정책을 찾는 과정. 다음 state 중에서 가장 높은 가치 함수(max value function)를 가진 상태로 가는 탐욕 개선(greedy improvement) 방식 등이 있다.
정책 반복(Poilicy Iteration)
벨만 기대 방정식을 통해 정책 π 에 대한 참 가치 함수를 찾고, 이 참 가치 함수를 통해 현재 상태에서 높은 가치 함수 값을 가지는 상태로 가도록 개선시킨 새로운 정책 π’ 를 만들고 이 새 정책 π’ 를 통해 다시 평가-개선 하는 과정을 통해 optimal한 정책을 찾는 것을 정책 반복 이라고한다.
벨만 최적 방정식(Bellman-optimal equation)
가치 함수중 최대 값을 가지는 상태 s 와 행동 a를 고르는 최적 가치 함수를 벨만 방정식으로 나타낸 방정식.
Post
Cancel강화학습 - Reinforcement Learning(1)
This post is licensed under CC BY 4.0 by the author.
Contents