OGLEE's World
close
프로필 배경
프로필 로고

OGLEE's World

  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
  • 태그
  • 방명록
Chapter 10. 한 걸음 더

Chapter 10. 한 걸음 더

이번 장에서는 현대적인 심층 강화 학습으로 한 걸음 더 들어간 알고리즘들을 살펴보자. 또한 심층 강화 학습에서 중요한 연구 사례도 소개한다.심층 강화 학습 알고리즘 분류먼저 가장 큰 분류 기준은 환경 모델(상태 전이 함수, 보상 함수)의 사용 여부이다. 모델 기반 기법은 다시 환경 모델이 주어지는 경우와 학습하는 경우로 나뉜다. 환경 모델이 주어지면 에이전트는 행동 없이 계획(Planning)만으로 문제를 해결할 수 있다. 바둑이나 장기 같은 보드 게임도 환경 모델이 알려져 있기 때문에 이 기법을 사용 가능하다. 환경 모델이 주어지지 않으면 환경에서 얻은 경험을 토대로 환경 모델을 학습하는 방법을 생각해볼 수 있다. 학습한 환경 모델은 계획 수립뿐 아니라 정책의 평가와 개선에도 활용할 수 있다. 현재 활..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 19.
  • textsms
Chapter 9. 정책 경사법(Policy Gradient)

Chapter 9. 정책 경사법(Policy Gradient)

이전까지 배운 Q 러닝, SARSA, 몬테카를로 법 등은 크게 보면 가치 기반(value-based method)로 분류된다. 여기서 말하는 '가치'는 행동 가치 함수(Q 함수)나 상태 가치 함수(V)를 뜻한다. 가치 기반 기법은 가치 함수를 모델링하고 가치 함수를 학습한다. 그리고 가치 함수를 경유하여 정책을 얻는다.이번 장에서는 가치 기반 기법과는 다른 '정책 경사법(Policy Gradient)'에 의한 알고리즘에 대해서 알아보고자 한다.가장 간단한 정책 경사법정책 경사법은 경사, 즉 기울기(gradient)를 이용하여 정책을 갱신하는 기법들의 총칭이다. 가장 간단한 알고리즘부터 살펴보자.정책 경사법 도출이번 장에서는 정책을 신경망 모델로 표현한다. 신경망의 매개변수 전체를 \(\theta\)로 표..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 18.
  • textsms
Chapter 8. DQN

Chapter 8. DQN

이번 장에서 다룰 DQN(Deep Q Network)는 Q 러닝과 신경망을 결합하고 '경험 재생'과 '목표 신경망'을 더한 기법이다.DQN의 핵심 기술Q 러닝에서는 추정치를 사용하여 추정치를 갱신한다(부트스트래핑). 아직 정확하지 않은 추정치를 사용하여 현재의 추정치를 갱신하기 대문에 Q러닝(넓게 보면 TD법)은 불안정해지기 쉽다는 성질이 있다. 여기에 신경망처럼 표현력이 높은 함수 근사화 기법이 더해지면 결과는 더욱 불안정해진다.이런 단점을 극복하기 위해 DQN에서는 '경험 재생'과 '목표 신경망' 기술을 사용한다. 이러한 기술을 통해 DQN은 처름으로 비디오 게임과 같은 복잡한 문제를 성공적으로 풀어내었다.경험 재생2013년 DQN이 발표되기 전까지 신경망으로 강화 학습 문제를 해결한 사례는 거의 없..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 18.
  • textsms
Chapter 7. 신경망과 Q 러닝

Chapter 7. 신경망과 Q 러닝

지금까지는 상태와 행동의 가짓수가 적은 문제만 다루었으나, 예를 들어 체스판만 해도 배열 패턴이 \(10^{123}\)개나 될 정도로 많다. 이 많은 상태를 테이블로 관리 할 수 없을 뿐더러 일일이 개선할 수는 없다.이번 장에서는 Q 함수를 딥러닝을 통해 통해 근사하고 학습하는 과정을 살펴볼 차례다.Q 러닝과 신경망이번 절의 주제는 Q 러닝과 신경망의 결합이다.Q 함수를 표현하는 신경망Q 함수를 신경망의 입력과 출력으로 규정하기 위해 두 가지 구조를 살펴보자.첫 번째는 상태와 행동이 입력이고 출력이 Q 함수 값이다.두 번째는 상태를 입력 받고 가능한 행동의 개수만큼 Q 함수의 값을 출력하는 신경망이다.첫 번째 구조는 계산 비용 측면에서 문제가 있다. Q 러닝에서는 \(\underset{a}{\operat..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 17.
  • textsms
Chapter 6. TD법(SARSA, Q-learning)

Chapter 6. TD법(SARSA, Q-learning)

5장에서 배운 몬테카를로법은 에피소드가 종료가 되고 수익이 확정돼야 가치 함수를 갱신할 수 있는 방법이었다. 따라서 에피소드에 끝이 없는 지속적 과제에는 적용하기 힘들다. 또한 일회성 과제라고 해도 완료 시간이 오래 걸리는 에피소드는 가치 함수를 갱신하는데 오랜 시간이 소요되므로 비효율적이다. 에이전트가 초반에는 무작위인 경우가 많기 때문이다.이번 장에서는 환경 모델을 사용하지 않을 뿐 아니라 행동을 한 번 수행할 때마다 가치 함수를 갱신하는 TD(Temporal Difference, 시간차) 법을 설명한다.TD법으로 정책 평가하기TD법은 MC와 DP를 합친 기법이다. 먼저 이 두 방법을 복습해보자.TD법 도출수익과 가치 함수에 대해서 복습해보자.$$\begin{equation} \begin{split}..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 15.
  • textsms
Chapter 5. 몬테카를로 법

Chapter 5. 몬테카를로 법

Intro4장에서는 동적 프로그래밍으로 최적 가치 함수와 최적 정책을 찾았다. DP를 이용하려면 '환경 모델(상태 전이 확률과 보상 함수)'을 알아야 한다. 하지만 실제로 환경 모델을 알 수 있는 경우는 많지 않다. 혹은 알 수 있더라도 DP 방식으로는 계산량이 너무 많아서 사실상 풀 수 없는 경우가 많다. 이런 상황에서 문제를 풀려면 에이전트가 실제로 행동하여 얻은 경험을 토대로 학습해야 한다.몬테카를로법(monte carlo method, MC)가 바로 그런 방법 중 하나이다. 데이터를 반복적으로 샘플링하여 그 결과를 토대로 추정하는 방법을 일컫는다. 강화 학습에서는 MC를 통해 경험으로부터 가치 함수를 추정할 수 있다. 여기서 말하는 경험이란 환경과 에이전트가 실제로 상호작용하여 얻은 (상태, 행동..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 14.
  • textsms
Chapter 4. 동적 프로그래밍

Chapter 4. 동적 프로그래밍

이전 장에서 벨만 방정식에 대해 배웠다. 상태 전이 확률, 보상 함수, 정책이라는 세 가지 정보와 벨만 방정식을 이용하면 가치 함수에 대한 연립 방정식을 얻을 수 있고 이를 풀 수 있다면 가치 함수를 구할 수 있다. 하지만 연립 방정식을 직접 푸는 경우는 간단한 문제에 대해서만 가능하다. 상태와 행동 패턴의 수가 많아지면 감당할 수 없게 된다. 이런 경우에 적용할 수 있는 것이 동적 프로그래밍(Dynamic Programming(DP)) 혹은 동적 계획법이다.동적 프로그래밍과 정책 평가동적 프로그래밍을 활용해서 벨만 방정식을 다시 써보자. 기존 벨만 방정식$$v_\pi(s) = \sum_{a, s'} \pi(a|s) p(s'|s,a) \{r(s,a,s') + \gamma v_\pi(s')\}$$벨만 방정..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 12.
  • textsms
Chapter 3. 벨만 방정식

Chapter 3. 벨만 방정식

만약 환경이 결정적이고 에이전트의 행동도 결정적이라면 백업 다이어그램은 위 그림의 왼쪽처럼 하나의 직선으로 뻗어 있다. 그렇다면 2장에서처럼 수식을 이용해서 상태 가치 함수를 구할 수 있다. 하지만 마르코프 결정 과정에서 환경과 에이전트의 행동이 확률적으로 변한다면 2장의 수식 계산으로는 구할 수 없다.위 그림의 오른쪽과 같은 상황에서도 상태 가치를 구하기 위해 핵심이 되는 벨만 방정식(bellman equation)을 알아보자. 벨만 방정식은 마르코프 결정 과정에서 성립하는 가장 중요한 방정식이다.벨만 방정식 도출앞서 '수익(return')은 다음과 같이 정의했다.$$G_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \cdots$$ (3.2)이번 절에서는 보상을 무한..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 9.
  • textsms
Chapter 2. 마르코프 결정 과정

Chapter 2. 마르코프 결정 과정

밴디트 문제에서는 에이전트가 어떤 행동을 취하든 다음에 도전할 문제의 설정은 변하지 않는다. 하지만 현실은 그렇지 않다. 2장에서는 에이전트의 행동에 따라 상태가 변하는 문제를 다룬다. 이러한 문제의 대표적인 예로 마르코프 결정 과정(Markov Decision Process(MDP))가 있다.마르코프 결정 과정(MDP)란?마르코프 결정 과정에서 '결정 과정'이란 '에이전트가 환경과 상호작용하면서 행동을 결정하는 과정'을 의미한다.구체적인 예위와 같이 격자로 구분되어 있고 그 안에 로봇(에이전트)가 있는 '그리드 월드'를 생각해보자. 에이전트는 오른쪽으로 이동하거나 왼쪽으로 이동할 수 있다. 폭탄과 사과는 에이전트가 얻을 수 있는 보상이다. 그림과 같이 에이전트의 행동에 따라 에이전트가 처하는 상황이 달..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 8.
  • textsms
Chapter 1. 밴디트 문제

Chapter 1. 밴디트 문제

사람은 가르치는 선생님이 없어도 스스로 시행착오를 겪으면서 자연스럽게 배우는 것들이 있다. 이것처럼 가르치는 사람 없이도 환경과 상호작용하며 더 나은 해결책을 스스로 학습하는 것을 강화학습이라고한다.이번 장에서 다룰 문제는 강화 학습에서 가장 기본이 되는 '밴디트 문제'이다.머신러닝 분류와 강화 학습머신러닝은 말 그대로 기계를 학습시키는 기법이다. 규칙을 사람이 프로그래밍 하여 알려주는 것이 아니라 컴퓨터가 데이터를 통해서 스스로 찾아 학습하는 것이다. 머신러닝 기법들은 대표적으로 '지도 학습', '비지도 학습', '강화 학습'으로 나뉜다.지도 학습과 비지도 학습지도 학습은 머신러닝에서 가장 전통적인 기법이다. 지도 학습에서는 입력(문제)와 출력(정답)을 쌍으로 묶은 데이터를 사용한다. 지도 학습의 특징..

  • format_list_bulleted 인공지능/[책] 밑바닥부터 시작하는 딥러닝4
  • · 2025. 1. 6.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
최근 글
인기 글
최근 댓글
태그
  • #rnn
  • #마르코프 속성
  • #llm
  • #배당주
  • #cnn
  • #혁펜하임
  • #벨만 방정식
  • #자본주의
  • #손잡이 달린 컵
  • #딥러닝
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바