[인공지능] 딥살사와 폴리시 그레이디언트
딥살사 (Deep SALSA)
기존에 살사 알고리즘으로 해결하기 어려운 문제를 심층신경망을 통해 해결하는 알고리즘.
문제 해결을 위해 MDP를 정하고 학습을 위해, 다음 수식과 같이 예측, 정답을 찾아내고
\[예측 : Q(S_t, A_t)\] \[정답 : R_{t+1} + γQ(S_{t+1}, A_{t+1})\]다음 수식과 같이 오차함수 MSE 를 통해 신경망을 학습할 수 있다.
\[MSE = (정답 - 예측)^2 = (R_{t+1} + γQ(S_{t+1}, A_{t+1}) - Q(S_t, A_t))^2\]#### 폴리시 그레이디언트 (Policy Gradient)
이전 강화학습은 모두 가치 기반 강화학습(Value-based Reinforcement Learning) 이며, 다른 방향으로 순차적 행동 결정 문제에 접근하는 정책 기반 강화학습(Policy-based Reinforcement Learning)이 있다.
정책기반 강화학습에서는 정책을 직접 근사하므로 MSE 오차함수를 쓰지 않고 새로이 정해야한다. 정책을 신경망으로 표현한 정책신경망의 가중치 값에 따라 에이전트의 누적 보상을 확인하는 목표함수를 만들고 이 목표 함수를 최대화 하는 쪽으로 경사를 올리는 경사상승법(Gradient Asccent)을 사용하면 최적화가 가능하다. 이렇게 경사상승법을 통해 근사된 정책을 업데이트하는 방법을 폴리시 그레이디언트라고 한다.
Post
Cancel강화학습 - Reinforcement Learning(6)
This post is licensed under CC BY 4.0 by the author.
Contents