3장. 마르코프 의사 결정과 동적 계획법 풀이 전략
이번 장에서는 강화 학습 문제 상황을 논리적으로 표현한 마르코프 의사 결정 과정과 에이전트가 컴퓨터로 표현된 환경에서 최대 보상을 끌어내는 방법 중 하나인 동적 계획법에 대해서 살펴보겠다.마르코프 의사 결정강화학습 환경은 수식으로 표현된 마르코프 의사 결정(Markov Decision Process, MDP)로 설명된다. 마르코프 속성은 다음과 같다."미래의 상태는 과거에 무슨 상태를 겪었어도 현재 상태에만 의존한다."강화 학습 현재 시점의 환경이 에이전트와 환경이 지난 과거에 무슨 일을 겪었는지와 무관하며, 이에 따라 에이전트가 행동에 대한 의사 결정을 내릴 때 에이전트는 마르코프 의사 결정을 내린다고 표현한다.마르코프 의사 결정의 압력값에 해당하는 '상태'와 목표로 하는 출력값인 '리턴'을 깊이 있게..