Home
공부하자 현준아
Cancel

모방학습 - Imitation Learning

[인공지능] 모방학습 모방학습이란 전문가의 행동을 모방하며 학습하는 알고리즘. 모방학습에는 행동 복제(Behavioral Cloning)와 역강화학습(IRL, Inverse Reinforcement Learning)이 있다. 행동 복제(Behavioral Cloning) 전문가의 행동 데이터셋 (St ...

강화학습 - Reinforcement Learning(6)

[인공지능] 딥살사와 폴리시 그레이디언트 딥살사 (Deep SALSA) 기존에 살사 알고리즘으로 해결하기 어려운 문제를 심층신경망을 통해 해결하는 알고리즘. 문제 해결을 위해 MDP를 정하고 학습을 위해, 다음 수식과 같이 예측, 정답을 찾아내고 \[예측 : Q(S_t, A_t)\] \[정답 : R_{t+1...

강화학습 - Reinforcement Learning(5)

[인공지능] 인공신경망(Artificial Neural Network)과 강화학습 기존 강화학습의 한계 몬테카를로, 살사, 큐러닝은 모델 프리(Model-Free) 알고리즘으로 환경에 대한 모델 없이 샘플링을 통해 학습함으로써 다이내믹 프로그래밍의 한계 중 환경에 대한 완벽한 정보가 필요함을 해결하였다. 하지만 계산 복...

강화학습 - Reinforcement Learning(4)

[인공지능] 큐 러닝 (Q-Learning)과 전통적 강화학습 강화학습의 예측과 제어 강화학습은 환경의 모델없이 환경과의 상호 작용을 통해 최적 정책을 학습한다. 상호작용을 통해 정책에 대한 참 가치함수를 학습하는 것을 예측이라고 하며 예측과 함께 정책을 발전 시켜 최적 정책을 학습하는 것을 제어라고 한다. 몬...

강화학습 - Reinforcement Learning(3)

[인공지능] 다이내믹 프로그래밍 순차적 행동 결정 문제 풀이법 순차적 행동 결정 문제를 MDP로 정의 가치함수를 벨만 방정식을 통해 반복 계산 최적 가치함수 / 최적 정책 찾기 벨만 ...

강화학습 - MDP

[인공지능] Markov Decision Process, MDP 순차적 행동 결정 문제에 대해 정의하는 방법. MDP의 구성 요소 상태 : 시간 t 에서 상태 s 일 때, 확률변수 St = s 라고 정의한다. 행동 : 시간 t 에서 행동 a 일...

강화학습 - Reinforcement Learning(2)

[인공지능] Model Free & Q-Learning Dynamic Programming 강화학습의 토대가 되는 동적 프로그래밍(Dynamic Programming)은 학습이 아니라 전체 큰 문제를 작은 문제로 나누어 풀 수 있도록 계획하여 연산을 빠르게 하는 것. 정책 반복...

강화학습 - Reinforcement Learning(1)

[인공지능] 가치 함수 & 벨만 방정식 < 2019-10-09 내용 개정 > 그림 출처 - David Silver 교수님의 RL course 강의 내용](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html) 강화학습의 목적은 에이전트...

벡터(Vector)

벡터(Vector) 벡터는 크기(magnitude)와 방향(direction) 정보를 담고있다. 스칼라(Scalar)는 크기만 담고 있다. 단위벡터(Unit Vector) : 크기가 1인 벡터, 정규화(Normalize)를 통해 벡터를 단위벡터로 만든다. \(|\vec u| = \sqrt{u_x^2 + u_y^2 + u_z^2} \\...

행렬(Matrix)

벡터(Vector) 벡터는 크기(magnitude)와 방향(direction) 정보를 담고있다. 스칼라(Scalar)는 크기만 담고 있다. 행렬(Matrix) 정방행렬(Square Matrix) : \(N \times N\) 인 행렬. 전치행렬(Transpose Matrix) : 행과 열을 바꾼 행렬. \(A= ...