7장. 탐험의 전략-Model based learning
사전 지식 - 밴딧 모델지금까지 살펴보았던 model-free 계열의 알고리즘은 이전에 누군가가 진행했던 학습 상황을 이용하는 데 상당한 애로 사항이 있는 알고리즘이다. 인공 신경망은 블랙박스와 같기 때문에 필요한 지식을 직접적으로 추출하거나 전달하는 것이 현실적으로 불가능하다. 하지만 알파고는 적절한 사전 지식(고수의 기보)을 이용하고 받아들이는 것에 성공했는데 어떤 알고리즘 덕분이었을까?지금까지 살펴본 강화 학습을 적용할 수 있는 환경에 대해서 생각해보자. 에이전트와 환경이 주어진 에피소드 동안에 계속해서 상호 작용하여 학습이 된다. 하지만 에이전트-환경 간의 피드백이 단 한 번으로 끝나는 에피소드 환경에서는 이야기가 달라진다.위 그림을 보면 에이전트에 상태를 주면 에이전트는 이를 통해 적절한 행동을..