6장. 즉각적인 학습이 필요할 때 - Policy Gradient
위와 같은 상황에서 에이전트가 보상을 취하기 위한 적절한 행동은 무엇이며 그 때의 Q-함수값은 얼마일까? 우리는 직관적으로 카트를 왼쪽으로 빠르게 움직여야 폴이 쓰러지지 않을 것이라는 것을 안다. 그러나 Q-함수를 사용하는 에이전트는 \(argmax_AQ(s,a)\)를 계산하여 행동을 취하므로 직관적으로 답을 내리지 못한다. 즉, 지금까지 우리가 살펴본 강화 학습 방식은 에이전트가 학습 및 행동을 선택하는 데 정책을 배제한 off-policy 학습이었다.다음 상황을 살펴보자.위와 같은 상황에서 더 합리적인 에이전트는 무엇일까? Q 함수로만 따진다면 A 에이전트는 B 에이전트보다 합리적인 행동을 선택하게 될 것이다. 그러나 DQN의 목적 함수으로 학습을 진행하는 경우 목적 함수가 가장 최소값을 가지는 B ..