OGLEE's World
close
프로필 배경
프로필 로고

OGLEE's World

  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
  • 태그
  • 방명록
7장. 탐험의 전략-Model based learning

7장. 탐험의 전략-Model based learning

사전 지식 - 밴딧 모델지금까지 살펴보았던 model-free 계열의 알고리즘은 이전에 누군가가 진행했던 학습 상황을 이용하는 데 상당한 애로 사항이 있는 알고리즘이다. 인공 신경망은 블랙박스와 같기 때문에 필요한 지식을 직접적으로 추출하거나 전달하는 것이 현실적으로 불가능하다. 하지만 알파고는 적절한 사전 지식(고수의 기보)을 이용하고 받아들이는 것에 성공했는데 어떤 알고리즘 덕분이었을까?지금까지 살펴본 강화 학습을 적용할 수 있는 환경에 대해서 생각해보자. 에이전트와 환경이 주어진 에피소드 동안에 계속해서 상호 작용하여 학습이 된다. 하지만 에이전트-환경 간의 피드백이 단 한 번으로 끝나는 에피소드 환경에서는 이야기가 달라진다.위 그림을 보면 에이전트에 상태를 주면 에이전트는 이를 통해 적절한 행동을..

  • format_list_bulleted 인공지능/[책] 강화학습 이론 & 실습
  • · 2025. 1. 1.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
최근 글
인기 글
최근 댓글
태그
  • #배당주
  • #cnn
  • #자본주의
  • #llm
  • #혁펜하임
  • #손잡이 달린 컵
  • #딥러닝
  • #벨만 방정식
  • #마르코프 속성
  • #rnn
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바