Home 강화학습 - Reinforcement Learning(6)
Post
Cancel

강화학습 - Reinforcement Learning(6)

  • [인공지능] 딥살사와 폴리시 그레이디언트

    딥살사 (Deep SALSA)

    기존에 살사 알고리즘으로 해결하기 어려운 문제를 심층신경망을 통해 해결하는 알고리즘.

    문제 해결을 위해 MDP를 정하고 학습을 위해, 다음 수식과 같이 예측, 정답을 찾아내고

    \[예측 : Q(S_t, A_t)\] \[정답 : R_{t+1} + γQ(S_{t+1}, A_{t+1})\]

    다음 수식과 같이 오차함수 MSE 를 통해 신경망을 학습할 수 있다.

    \[MSE = (정답 - 예측)^2 = (R_{t+1} + γQ(S_{t+1}, A_{t+1}) - Q(S_t, A_t))^2\]

    #### 폴리시 그레이디언트 (Policy Gradient)

    이전 강화학습은 모두 가치 기반 강화학습(Value-based Reinforcement Learning) 이며, 다른 방향으로 순차적 행동 결정 문제에 접근하는 정책 기반 강화학습(Policy-based Reinforcement Learning)이 있다.

    정책기반 강화학습에서는 정책을 직접 근사하므로 MSE 오차함수를 쓰지 않고 새로이 정해야한다. 정책을 신경망으로 표현한 정책신경망의 가중치 값에 따라 에이전트의 누적 보상을 확인하는 목표함수를 만들고 이 목표 함수를 최대화 하는 쪽으로 경사를 올리는 경사상승법(Gradient Asccent)을 사용하면 최적화가 가능하다. 이렇게 경사상승법을 통해 근사된 정책을 업데이트하는 방법을 폴리시 그레이디언트라고 한다.

This post is licensed under CC BY 4.0 by the author.

강화학습 - Reinforcement Learning(5)

모방학습 - Imitation Learning