[논문 리뷰] Self-Rewarding Language Models
Authors (Affiliation)Yuan, 조경현 교수, Meta, NYU24.01요약Reward Model을 따로 두지 않고, LLM을 답변도 만들고 답변을 평가까지 같이 해본 결과.AI 피드백은 RLAIF 연구에서 이미 있었으나, 자기 스스로 답변하고 평가하고, 그 데이터로 다시 학습까지 하는 연구는 없었음중요한 점은 LLM을 Judge로 활용하기 위해 저자들이 사용한 프롬프트ProblemHuman Preference로 Reward Model을 학습하면 사실 Super Human Level에는 도달하기 어렵다.또한 Reward Model을 일단 학습하면 Agent를 학습할 때는 Frozen 형태로 사용하기 때문에 더 향상되지 못한다.DPO 방식은 일반적으로 Iterative 학습하지 않는다.Ma..