'DQN' 태그의 글 목록

Chapter 8. DQN

이번 장에서 다룰 DQN(Deep Q Network)는 Q 러닝과 신경망을 결합하고 '경험 재생'과 '목표 신경망'을 더한 기법이다.DQN의 핵심 기술Q 러닝에서는 추정치를 사용하여 추정치를 갱신한다(부트스트래핑). 아직 정확하지 않은 추정치를 사용하여 현재의 추정치를 갱신하기 대문에 Q러닝(넓게 보면 TD법)은 불안정해지기 쉽다는 성질이 있다. 여기에 신경망처럼 표현력이 높은 함수 근사화 기법이 더해지면 결과는 더욱 불안정해진다.이런 단점을 극복하기 위해 DQN에서는 '경험 재생'과 '목표 신경망' 기술을 사용한다. 이러한 기술을 통해 DQN은 처름으로 비디오 게임과 같은 복잡한 문제를 성공적으로 풀어내었다.경험 재생2013년 DQN이 발표되기 전까지 신경망으로 강화 학습 문제를 해결한 사례는 거의 없..

format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
· 2025. 1. 18.
textsms

5장. Q-함수는 신경망에 맡긴다-DQN

DQN가로세로 19칸의 격자로 이루어진 바둑 공간에서 인공지능 알파고가 마주할 수 있는 상태의 수는 대략 \(10^{170}\)개로 무한의 가까운 수를 다뤄야 한다.처음에는 19X19=361개의 칸에 돌을 놓을 수 있고, 그 다음에는 360, 또 그 다음은 359... 이런 식으로 하나씩 경우의 수가 줄어든다고 가정하고 계산하면 361!이 나온다. 물론 그 중에 실제로 둘 수 있는 경우의 수는 1% 정도.지금까지 살펴 보았던 격자 공간으로 문제를 해결하려고 한다면 계산량 측면에서 불가능에 직면하게 된다(차원의 저주). 따라서 인공 신경망 기법을 도입하여 이 문제를 해결하고자 한다.이론DQN이란 Deep-Q-Network의 줄임말로, Q-함수값을 구하는데 딥러닝 방식을 이용하는 아이디어이다. 원 논문은 "..

format_list_bulleted 인공지능/[책] 강화학습 이론 & 실습
· 2024. 12. 28.
textsms

navigate_before
1
navigate_next

Chapter 8. DQN

5장. Q-함수는 신경망에 맡긴다-DQN

티스토리툴바