Chapter 8. DQN
이번 장에서 다룰 DQN(Deep Q Network)는 Q 러닝과 신경망을 결합하고 '경험 재생'과 '목표 신경망'을 더한 기법이다.DQN의 핵심 기술Q 러닝에서는 추정치를 사용하여 추정치를 갱신한다(부트스트래핑). 아직 정확하지 않은 추정치를 사용하여 현재의 추정치를 갱신하기 대문에 Q러닝(넓게 보면 TD법)은 불안정해지기 쉽다는 성질이 있다. 여기에 신경망처럼 표현력이 높은 함수 근사화 기법이 더해지면 결과는 더욱 불안정해진다.이런 단점을 극복하기 위해 DQN에서는 '경험 재생'과 '목표 신경망' 기술을 사용한다. 이러한 기술을 통해 DQN은 처름으로 비디오 게임과 같은 복잡한 문제를 성공적으로 풀어내었다.경험 재생2013년 DQN이 발표되기 전까지 신경망으로 강화 학습 문제를 해결한 사례는 거의 없..