OGLEE's World
close
프로필 배경
프로필 로고

OGLEE's World

  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
  • 태그
  • 방명록
6장. 즉각적인 학습이 필요할 때 - Policy Gradient

6장. 즉각적인 학습이 필요할 때 - Policy Gradient

위와 같은 상황에서 에이전트가 보상을 취하기 위한 적절한 행동은 무엇이며 그 때의 Q-함수값은 얼마일까? 우리는 직관적으로 카트를 왼쪽으로 빠르게 움직여야 폴이 쓰러지지 않을 것이라는 것을 안다. 그러나 Q-함수를 사용하는 에이전트는 \(argmax_AQ(s,a)\)를 계산하여 행동을 취하므로 직관적으로 답을 내리지 못한다. 즉, 지금까지 우리가 살펴본 강화 학습 방식은 에이전트가 학습 및 행동을 선택하는 데 정책을 배제한 off-policy 학습이었다.다음 상황을 살펴보자.위와 같은 상황에서 더 합리적인 에이전트는 무엇일까? Q 함수로만 따진다면 A 에이전트는 B 에이전트보다 합리적인 행동을 선택하게 될 것이다. 그러나 DQN의 목적 함수으로 학습을 진행하는 경우 목적 함수가 가장 최소값을 가지는 B ..

  • format_list_bulleted 인공지능/[책] 강화학습 이론 & 실습
  • · 2024. 12. 29.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
최근 글
인기 글
최근 댓글
태그
  • #배당주
  • #자본주의
  • #손잡이 달린 컵
  • #벨만 방정식
  • #딥러닝
  • #cnn
  • #혁펜하임
  • #마르코프 속성
  • #llm
  • #rnn
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바