OGLEE's World
close
프로필 배경
프로필 로고

OGLEE's World

  • 분류 전체보기 (121)
    • 프로젝트 (4)
      • 강화학습 코인 트레이더 (4)
    • 인공지능 (71)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 밑바닥부터 시작하는 딥러닝5 (1)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (14)
      • 영화 (13)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
  • 태그
  • 방명록
7장. 탐험의 전략-Model based learning

7장. 탐험의 전략-Model based learning

사전 지식 - 밴딧 모델지금까지 살펴보았던 model-free 계열의 알고리즘은 이전에 누군가가 진행했던 학습 상황을 이용하는 데 상당한 애로 사항이 있는 알고리즘이다. 인공 신경망은 블랙박스와 같기 때문에 필요한 지식을 직접적으로 추출하거나 전달하는 것이 현실적으로 불가능하다. 하지만 알파고는 적절한 사전 지식(고수의 기보)을 이용하고 받아들이는 것에 성공했는데 어떤 알고리즘 덕분이었을까?지금까지 살펴본 강화 학습을 적용할 수 있는 환경에 대해서 생각해보자. 에이전트와 환경이 주어진 에피소드 동안에 계속해서 상호 작용하여 학습이 된다. 하지만 에이전트-환경 간의 피드백이 단 한 번으로 끝나는 에피소드 환경에서는 이야기가 달라진다.위 그림을 보면 에이전트에 상태를 주면 에이전트는 이를 통해 적절한 행동을..

  • format_list_bulleted 인공지능/[책] 강화학습 이론 & 실습
  • · 2025. 1. 1.
  • textsms
6장. 즉각적인 학습이 필요할 때 - Policy Gradient

6장. 즉각적인 학습이 필요할 때 - Policy Gradient

위와 같은 상황에서 에이전트가 보상을 취하기 위한 적절한 행동은 무엇이며 그 때의 Q-함수값은 얼마일까? 우리는 직관적으로 카트를 왼쪽으로 빠르게 움직여야 폴이 쓰러지지 않을 것이라는 것을 안다. 그러나 Q-함수를 사용하는 에이전트는 \(argmax_AQ(s,a)\)를 계산하여 행동을 취하므로 직관적으로 답을 내리지 못한다. 즉, 지금까지 우리가 살펴본 강화 학습 방식은 에이전트가 학습 및 행동을 선택하는 데 정책을 배제한 off-policy 학습이었다.다음 상황을 살펴보자.위와 같은 상황에서 더 합리적인 에이전트는 무엇일까? Q 함수로만 따진다면 A 에이전트는 B 에이전트보다 합리적인 행동을 선택하게 될 것이다. 그러나 DQN의 목적 함수으로 학습을 진행하는 경우 목적 함수가 가장 최소값을 가지는 B ..

  • format_list_bulleted 인공지능/[책] 강화학습 이론 & 실습
  • · 2024. 12. 29.
  • textsms
5장. Q-함수는 신경망에 맡긴다-DQN

5장. Q-함수는 신경망에 맡긴다-DQN

DQN가로세로 19칸의 격자로 이루어진 바둑 공간에서 인공지능 알파고가 마주할 수 있는 상태의 수는 대략 \(10^{170}\)개로 무한의 가까운 수를 다뤄야 한다.처음에는 19X19=361개의 칸에 돌을 놓을 수 있고, 그 다음에는 360, 또 그 다음은 359... 이런 식으로 하나씩 경우의 수가 줄어든다고 가정하고 계산하면 361!이 나온다. 물론 그 중에 실제로 둘 수 있는 경우의 수는 1% 정도.지금까지 살펴 보았던 격자 공간으로 문제를 해결하려고 한다면 계산량 측면에서 불가능에 직면하게 된다(차원의 저주). 따라서 인공 신경망 기법을 도입하여 이 문제를 해결하고자 한다.이론DQN이란 Deep-Q-Network의 줄임말로, Q-함수값을 구하는데 딥러닝 방식을 이용하는 아이디어이다. 원 논문은 "..

  • format_list_bulleted 인공지능/[책] 강화학습 이론 & 실습
  • · 2024. 12. 28.
  • textsms
4장. 벨만 방정식부터 강화 학습까지

4장. 벨만 방정식부터 강화 학습까지

몬테-카를로 추정법앞 장에서 살펴본 동적 계획법을 활용한 벨만 방정식의 해를 찾는 방식은 에이전트가 환경에 대한 모든 정보를 파악하고 문제를 해결한다는 점에서 진정한 강화학습으로 볼 수 없다. 강화 학습이란 위 그림처럼 정확히 파악할 수 없는 환경에 대한 수학적인 정보를 모른 채 에이전트가 환경과 상호 작용하면서 주어진 상태에 대한 최대 가치를 얻어내는 것이다.몬테-카를로(Monte-Carlo)추정법은 특정 값을 알고 싶으나 해석적으로 정확하게 계산하기 어려울때 대안으로 사용하는 확률을 기반으로 한 근사법이다. 예를 들어, 우리가 원주율 \(\pi\) 값을 정확히 알고 싶다고 할 때, 몬테-카를로 추정법으로 근사해볼 수 있다. 반지름이 1인 사분면의 원의 넓이가 \(\frac{\pi}{4}\)라는 것을 ..

  • format_list_bulleted 인공지능/[책] 강화학습 이론 & 실습
  • · 2024. 12. 25.
  • textsms
3장. 마르코프 의사 결정과 동적 계획법 풀이 전략

3장. 마르코프 의사 결정과 동적 계획법 풀이 전략

이번 장에서는 강화 학습 문제 상황을 논리적으로 표현한 마르코프 의사 결정 과정과 에이전트가 컴퓨터로 표현된 환경에서 최대 보상을 끌어내는 방법 중 하나인 동적 계획법에 대해서 살펴보겠다.마르코프 의사 결정강화학습 환경은 수식으로 표현된 마르코프 의사 결정(Markov Decision Process, MDP)로 설명된다. 마르코프 속성은 다음과 같다."미래의 상태는 과거에 무슨 상태를 겪었어도 현재 상태에만 의존한다."강화 학습 현재 시점의 환경이 에이전트와 환경이 지난 과거에 무슨 일을 겪었는지와 무관하며, 이에 따라 에이전트가 행동에 대한 의사 결정을 내릴 때 에이전트는 마르코프 의사 결정을 내린다고 표현한다.마르코프 의사 결정의 압력값에 해당하는 '상태'와 목표로 하는 출력값인 '리턴'을 깊이 있게..

  • format_list_bulleted 인공지능/[책] 강화학습 이론 & 실습
  • · 2024. 12. 23.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (121)
    • 프로젝트 (4)
      • 강화학습 코인 트레이더 (4)
    • 인공지능 (71)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 밑바닥부터 시작하는 딥러닝5 (1)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (14)
      • 영화 (13)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
최근 글
인기 글
최근 댓글
태그
  • #llm
  • #손잡이 달린 컵
  • #딥러닝
  • #배당주
  • #혁펜하임
  • #rnn
  • #벨만 방정식
  • #자본주의
  • #마르코프 속성
  • #cnn
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바