OGLEE's World
close
프로필 배경
프로필 로고

OGLEE's World

  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
  • 태그
  • 방명록
Chapter 6. TD법(SARSA, Q-learning)

Chapter 6. TD법(SARSA, Q-learning)

5장에서 배운 몬테카를로법은 에피소드가 종료가 되고 수익이 확정돼야 가치 함수를 갱신할 수 있는 방법이었다. 따라서 에피소드에 끝이 없는 지속적 과제에는 적용하기 힘들다. 또한 일회성 과제라고 해도 완료 시간이 오래 걸리는 에피소드는 가치 함수를 갱신하는데 오랜 시간이 소요되므로 비효율적이다. 에이전트가 초반에는 무작위인 경우가 많기 때문이다.이번 장에서는 환경 모델을 사용하지 않을 뿐 아니라 행동을 한 번 수행할 때마다 가치 함수를 갱신하는 TD(Temporal Difference, 시간차) 법을 설명한다.TD법으로 정책 평가하기TD법은 MC와 DP를 합친 기법이다. 먼저 이 두 방법을 복습해보자.TD법 도출수익과 가치 함수에 대해서 복습해보자.$$\begin{equation} \begin{split}..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 15.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
최근 글
인기 글
최근 댓글
태그
  • #마르코프 속성
  • #llm
  • #벨만 방정식
  • #손잡이 달린 컵
  • #rnn
  • #cnn
  • #자본주의
  • #혁펜하임
  • #딥러닝
  • #배당주
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바