OGLEE's World
close
프로필 배경
프로필 로고

OGLEE's World

  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
  • 태그
  • 방명록
Chapter 2. 마르코프 결정 과정

Chapter 2. 마르코프 결정 과정

밴디트 문제에서는 에이전트가 어떤 행동을 취하든 다음에 도전할 문제의 설정은 변하지 않는다. 하지만 현실은 그렇지 않다. 2장에서는 에이전트의 행동에 따라 상태가 변하는 문제를 다룬다. 이러한 문제의 대표적인 예로 마르코프 결정 과정(Markov Decision Process(MDP))가 있다.마르코프 결정 과정(MDP)란?마르코프 결정 과정에서 '결정 과정'이란 '에이전트가 환경과 상호작용하면서 행동을 결정하는 과정'을 의미한다.구체적인 예위와 같이 격자로 구분되어 있고 그 안에 로봇(에이전트)가 있는 '그리드 월드'를 생각해보자. 에이전트는 오른쪽으로 이동하거나 왼쪽으로 이동할 수 있다. 폭탄과 사과는 에이전트가 얻을 수 있는 보상이다. 그림과 같이 에이전트의 행동에 따라 에이전트가 처하는 상황이 달..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 8.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
최근 글
인기 글
최근 댓글
태그
  • #혁펜하임
  • #딥러닝
  • #마르코프 속성
  • #손잡이 달린 컵
  • #자본주의
  • #벨만 방정식
  • #배당주
  • #llm
  • #cnn
  • #rnn
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바