머신러닝 Machine Learning

강화 학습 (Reinforcement Learning) 개념 및 모델

코딩고블린 2020. 6. 12. 19:34

강화 학습

Reinforcement Learning

 

현재 상태를 인식하고, 할 수 있는 선택지 중에서, 최대한의 보상을 얻을 수 있는 액션을 선택하는 방법이다.

즉시 보상 뿐만 아니라 누적보상을 극대화 할 수 있는 액션(행동)을 찾는다.

 모델(샘플) 없이 학습이 가능하여, 최근에 많이 사용되는 학습법이다.

 

 


 

마르코프 결정과정 Markov Decision Processes

강화 학습의 가장 기본적인 의사결정 방법이다.

확률적으로 주어지는 보상의 누적합을 구해, 누적보상을 최대화시킬 방법(Optimal Policy)을 찾는다.

 

 

현재상태가 t 일때 다음 상태는 t+1

 

Q-Learning

Q 러닝은 주어진 상태에서 주어진 행동을 수행하는 것이 얼마나 좋은지, Q-value를 계산하는 함수인 Q Function 학습이다.

액션이 정해진 경우 자동으로 결정되기 때문에 델타값이 필요하지 않다.