기계학습 - Machine Learning

[인공지능] 기계학습 컴퓨터가 스스로 학습할 수 있는 알고리즘과 기술을 개발하는 인공지능의 한 분야. 개발자가 직접 작성하는 기존의 프로그래밍은 많은 규칙을 직접 만들기에는 한계가 있다. (e.g. 스팸 메세지 필터링, 자율 주행 자동차) 기계학습은 다음과 같이 나누어진다. ...

Nov 26, 2020 AI

역 강화학습 - Inverse Reinforcement Learning

[인공지능] 역강화학습 모방학습을 먼저 보고 오시면 좋습니다 ! 참고자료: [IRL 논문 1][http://ai.stanford.edu/~ang/papers/icml00-irl.pdf]1 , IRL 논문 22, RLkorea 논문 리뷰, PR-029 리뷰 영상 역강화학습이란 에이전트의 보상(Reward...

Nov 2, 2020 AI

모방학습 - Imitation Learning

[인공지능] 모방학습 모방학습이란 전문가의 행동을 모방하며 학습하는 알고리즘. 모방학습에는 행동 복제(Behavioral Cloning)와 역강화학습(IRL, Inverse Reinforcement Learning)이 있다. 행동 복제(Behavioral Cloning) 전문가의 행동 데이터셋 (St ...

Nov 1, 2020 AI

강화학습 - Reinforcement Learning(6)

[인공지능] 딥살사와 폴리시 그레이디언트 딥살사 (Deep SALSA) 기존에 살사 알고리즘으로 해결하기 어려운 문제를 심층신경망을 통해 해결하는 알고리즘. 문제 해결을 위해 MDP를 정하고 학습을 위해, 다음 수식과 같이 예측, 정답을 찾아내고 \[예측 : Q(S_t, A_t)\] \[정답 : R_{t+1...

Oct 20, 2020 AI

강화학습 - Reinforcement Learning(5)

[인공지능] 인공신경망(Artificial Neural Network)과 강화학습 기존 강화학습의 한계 몬테카를로, 살사, 큐러닝은 모델 프리(Model-Free) 알고리즘으로 환경에 대한 모델 없이 샘플링을 통해 학습함으로써 다이내믹 프로그래밍의 한계 중 환경에 대한 완벽한 정보가 필요함을 해결하였다. 하지만 계산 복...

Oct 18, 2020 AI

강화학습 - Reinforcement Learning(4)

[인공지능] 큐 러닝 (Q-Learning)과 전통적 강화학습 강화학습의 예측과 제어 강화학습은 환경의 모델없이 환경과의 상호 작용을 통해 최적 정책을 학습한다. 상호작용을 통해 정책에 대한 참 가치함수를 학습하는 것을 예측이라고 하며 예측과 함께 정책을 발전 시켜 최적 정책을 학습하는 것을 제어라고 한다. 몬...

Oct 17, 2020 AI

강화학습 - Reinforcement Learning(3)

[인공지능] 다이내믹 프로그래밍 순차적 행동 결정 문제 풀이법 순차적 행동 결정 문제를 MDP로 정의 가치함수를 벨만 방정식을 통해 반복 계산 최적 가치함수 / 최적 정책 찾기 벨만 ...

Oct 16, 2020 AI

강화학습 - MDP

[인공지능] Markov Decision Process, MDP 순차적 행동 결정 문제에 대해 정의하는 방법. MDP의 구성 요소 상태 : 시간 t 에서 상태 s 일 때, 확률변수 St = s 라고 정의한다. 행동 : 시간 t 에서 행동 a 일...

Oct 9, 2020

강화학습 - Reinforcement Learning(2)

[인공지능] Model Free & Q-Learning Dynamic Programming 강화학습의 토대가 되는 동적 프로그래밍(Dynamic Programming)은 학습이 아니라 전체 큰 문제를 작은 문제로 나누어 풀 수 있도록 계획하여 연산을 빠르게 하는 것. 정책 반복...

Oct 7, 2020 AI

강화학습 - Reinforcement Learning(1)

[인공지능] 가치 함수 & 벨만 방정식 < 2019-10-09 내용 개정 > 그림 출처 - David Silver 교수님의 RL course 강의 내용](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html) 강화학습의 목적은 에이전트...

Oct 6, 2020 AI

1
2
3
...
5
2 / 5