OGLEE's World
close
프로필 배경
프로필 로고

OGLEE's World

  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
  • 태그
  • 방명록
Chapter 5. 몬테카를로 법

Chapter 5. 몬테카를로 법

Intro4장에서는 동적 프로그래밍으로 최적 가치 함수와 최적 정책을 찾았다. DP를 이용하려면 '환경 모델(상태 전이 확률과 보상 함수)'을 알아야 한다. 하지만 실제로 환경 모델을 알 수 있는 경우는 많지 않다. 혹은 알 수 있더라도 DP 방식으로는 계산량이 너무 많아서 사실상 풀 수 없는 경우가 많다. 이런 상황에서 문제를 풀려면 에이전트가 실제로 행동하여 얻은 경험을 토대로 학습해야 한다.몬테카를로법(monte carlo method, MC)가 바로 그런 방법 중 하나이다. 데이터를 반복적으로 샘플링하여 그 결과를 토대로 추정하는 방법을 일컫는다. 강화 학습에서는 MC를 통해 경험으로부터 가치 함수를 추정할 수 있다. 여기서 말하는 경험이란 환경과 에이전트가 실제로 상호작용하여 얻은 (상태, 행동..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 14.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
최근 글
인기 글
최근 댓글
태그
  • #혁펜하임
  • #마르코프 속성
  • #cnn
  • #딥러닝
  • #손잡이 달린 컵
  • #llm
  • #rnn
  • #벨만 방정식
  • #배당주
  • #자본주의
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바