https://www.anthropic.com/news/constitutional-classifiers(google notebook-lm으로 작성)핵심 요약대규모 언어 모델(LLM)은 모델 안전 장치를 우회하여 유해한 정보를 추출할 수 있는 유니버설 jailbreak 공격에 취약합니다. 이러한 공격에 대응하기 위해 본 연구에서는 헌법 분류기(Constitutional Classifiers)라는 새로운 보호 방법을 제시합니다헌법 분류기는 허용 및 제한된 콘텐츠를 명시하는 자연어 규칙(헌법)을 사용하여 LLM이 생성한 합성 데이터를 기반으로 훈련됩니다. 이러한 헌법은 새로운 위협 모델에 맞춰 유연하게 업데이트할 수 있으며, 방대한 양의 훈련 데이터를 생성할 수 있도록 합니다.본 연구에서는 입력 전용 분류기와..
엔비디아 주가를 20%나 폭락시킨 중국 DeepSeek-R1 모델을 파헤쳐보고자 한다.DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning Abstract이 논문에서는 DeepSeek(중국 스타트업)의 첫 번째 reasoning model인 DeepSeek-R1-Zero와 DeepSeek-R1을 공개한다. 이 말에서부터 Reasoning이 아닌 다른 타입의 model은 이미 공개 된 상태란 것을 알 수 있다. 특히 R1-Zero는 지도 학습 없이 순수한 강화학습으로만 학습 되었음을 강조하고 있다(ChatGPT류의 시작인 InstructGPT, LLaMa 등은 대부분 지도 학습 이후 강화학습을 이어서 진행하는 방..
* 본 논문 요약은 Notebook LM을 활용하였습니다.전체 요약이 논문은 임베딩 공간을 이해하기 위해 대규모 언어 모델(LLM)을 활용하는 새로운 프레임워크인 ELM(Embedding Language Model)을 제안합니다. ELM은 도메인 임베딩을 LLM에 통합하여 추상적인 벡터를 사람이 이해할 수 있는 설명으로 변환합니다. 이 모델은 어댑터 레이어를 통해 도메인 임베딩 벡터를 LLM의 토큰 임베딩 공간으로 매핑하여 임베딩 데이터에 대한 쿼리 및 탐색을 가능하게 합니다. ELM은 영화 추천 시스템에서 개념 활성화 벡터 개선, 새로운 임베딩 엔티티 설명, 사용자 선호도 해석과 같은 다양한 작업에서 그 유용성을 입증합니다. 실험 결과는 ELM이 테스트 데이터에서 잘 일반화되고, 인간 평가와도 일치하며..
Abstract구글에서 내놓은 2B, 7B의 상업이용 가능한 LLM (RL까지 함)Gemini에서 사용한 기술이 접목된 비교적 작은 규모의 오픈소스 LLM(그래서 이름이 Gemma)Pretrained, Fine-tuned 모델 둘다 공개18개 language understanding, reasoning, safety becnmarks 사용, 11개에서 sota6T token으로 학습, Gemini와 similar architecture, data, training recipe 사용ArchitectureTransformer Decoder 사용Context Length = 8KMulti-Query Attention: 7B uses Multi-Head Attention, 2B use multi-query at..
저자Guan Wang, et. al, (칭화대)2022. 11. 25한 줄 요약수학 문제로 RL을 할 때, 최종 정답과 풀이 과정 2가지 Supervision을 가지고 학습 할 때 각각 어떤 결과가 나오는지에 관한 experimental한 페이퍼ProblemLLM에게 Reasoning Steps를 생성하게 하면, 자연스럽게 여러 Task에서 Reasoning 능력이 향상되어 왔음.문제는 최종 아웃풋(정답) 위주로 가르칠지 아니면 Process 위주로 가르칠지 선택의 기로에 놓이게 됨.Process 위주로 하게 되면 채점에서 cost가 커짐본 연구에서는 outcom-based vs process-based reasoning step에 대한 효과에 대해서 연구Main IdeasGSM8K(수학문제)를 활용하여..
AffiliationXuezhi Wang and Denny ZhouDeepmind2024. 2. 15요약LLM이 답변을 생성 할 때, 최초 생성할 토큰을 Top-1이 아니라 확률이 낮은 Top-K를 쓰면 CoT 현상이 일어나면서, Reasoning 능력이 좋아지더라ProblemLLM의 Reasoning 능력을 향상시키기 위해, 기존 연구에서는 Few-shot, Zero-shot Prompting을 사용했다.이는 효과적이긴 하지만, 일반적으로 Manual 한 방식이다(Best를 찾는게 어려움)Original CoT의 예시Main IdeasLLM에게 Explicit 하게 CoT를 학습시키지 않아도, LLM 안에는 Implicit 하게 CoT Path가 내재되어 있지 않을까? -> 그걸 끄집어내 보자!Gree..
Authors (Affiliation)Yuan, 조경현 교수, Meta, NYU24.01요약Reward Model을 따로 두지 않고, LLM을 답변도 만들고 답변을 평가까지 같이 해본 결과.AI 피드백은 RLAIF 연구에서 이미 있었으나, 자기 스스로 답변하고 평가하고, 그 데이터로 다시 학습까지 하는 연구는 없었음중요한 점은 LLM을 Judge로 활용하기 위해 저자들이 사용한 프롬프트ProblemHuman Preference로 Reward Model을 학습하면 사실 Super Human Level에는 도달하기 어렵다.또한 Reward Model을 일단 학습하면 Agent를 학습할 때는 Frozen 형태로 사용하기 때문에 더 향상되지 못한다.DPO 방식은 일반적으로 Iterative 학습하지 않는다.Ma..