Chapter 2. 마르코프 결정 과정
밴디트 문제에서는 에이전트가 어떤 행동을 취하든 다음에 도전할 문제의 설정은 변하지 않는다. 하지만 현실은 그렇지 않다. 2장에서는 에이전트의 행동에 따라 상태가 변하는 문제를 다룬다. 이러한 문제의 대표적인 예로 마르코프 결정 과정(Markov Decision Process(MDP))가 있다.마르코프 결정 과정(MDP)란?마르코프 결정 과정에서 '결정 과정'이란 '에이전트가 환경과 상호작용하면서 행동을 결정하는 과정'을 의미한다.구체적인 예위와 같이 격자로 구분되어 있고 그 안에 로봇(에이전트)가 있는 '그리드 월드'를 생각해보자. 에이전트는 오른쪽으로 이동하거나 왼쪽으로 이동할 수 있다. 폭탄과 사과는 에이전트가 얻을 수 있는 보상이다. 그림과 같이 에이전트의 행동에 따라 에이전트가 처하는 상황이 달..