[논문 리뷰] Chain-of-Thought Reasoning Without Prompting
AffiliationXuezhi Wang and Denny ZhouDeepmind2024. 2. 15요약LLM이 답변을 생성 할 때, 최초 생성할 토큰을 Top-1이 아니라 확률이 낮은 Top-K를 쓰면 CoT 현상이 일어나면서, Reasoning 능력이 좋아지더라ProblemLLM의 Reasoning 능력을 향상시키기 위해, 기존 연구에서는 Few-shot, Zero-shot Prompting을 사용했다.이는 효과적이긴 하지만, 일반적으로 Manual 한 방식이다(Best를 찾는게 어려움)Original CoT의 예시Main IdeasLLM에게 Explicit 하게 CoT를 학습시키지 않아도, LLM 안에는 Implicit 하게 CoT Path가 내재되어 있지 않을까? -> 그걸 끄집어내 보자!Gree..