OGLEE's World
close
프로필 배경
프로필 로고

OGLEE's World

  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
  • 태그
  • 방명록
[논문 리뷰] Self-Rewarding Language Models

[논문 리뷰] Self-Rewarding Language Models

Authors (Affiliation)Yuan, 조경현 교수, Meta, NYU24.01요약Reward Model을 따로 두지 않고, LLM을 답변도 만들고 답변을 평가까지 같이 해본 결과.AI 피드백은 RLAIF 연구에서 이미 있었으나, 자기 스스로 답변하고 평가하고, 그 데이터로 다시 학습까지 하는 연구는 없었음중요한 점은 LLM을 Judge로 활용하기 위해 저자들이 사용한 프롬프트ProblemHuman Preference로 Reward Model을 학습하면 사실 Super Human Level에는 도달하기 어렵다.또한 Reward Model을 일단 학습하면 Agent를 학습할 때는 Frozen 형태로 사용하기 때문에 더 향상되지 못한다.DPO 방식은 일반적으로 Iterative 학습하지 않는다.Ma..

  • format_list_bulleted 인공지능/논문
  • · 2024. 11. 20.
  • textsms
  • navigate_before
  • 1
  • navigate_next
공지사항
전체 카테고리
  • 분류 전체보기 (115)
    • 프로젝트 (3)
      • 강화학습 코인 트레이더 (3)
    • 인공지능 (70)
      • [책] 딥러닝- 강화학습 주식투자 (3)
      • [책] 밑바닥부터 시작하는 딥러닝1 (7)
      • [책] 밑바닥부터 시작하는 딥러닝2 (7)
      • [책] 밑바닥부터 시작하는 딥러닝4 (10)
      • [책] 강화학습 이론 & 실습 (5)
      • [책] 머신러닝-딥러닝에 필요한 기초 수학 (10)
      • [강의] 딥러닝, 머신러닝을 활용한 시계열 데이터 분석 (6)
      • [강의] 혁펜하임 딥러닝 강의 (10)
      • 교양 서적 (2)
      • 논문 (9)
    • 투자 (21)
      • 투자 관련 책 (19)
    • 인문학 (5)
    • 일상 (10)
      • 영화 (10)
      • 여행 (0)
      • 성장 일기 (0)
    • 영어 공부 (1)
      • 쉐도잉 (1)
      • 영단어 (0)
최근 글
인기 글
최근 댓글
태그
  • #자본주의
  • #벨만 방정식
  • #llm
  • #cnn
  • #딥러닝
  • #rnn
  • #혁펜하임
  • #손잡이 달린 컵
  • #배당주
  • #마르코프 속성
전체 방문자
오늘
어제
전체
Copyright © 쭈미로운 생활 All rights reserved.
Designed by JJuum

티스토리툴바