[논문 요약] Constitutional Classifier
https://www.anthropic.com/news/constitutional-classifiers(google notebook-lm으로 작성)핵심 요약대규모 언어 모델(LLM)은 모델 안전 장치를 우회하여 유해한 정보를 추출할 수 있는 유니버설 jailbreak 공격에 취약합니다. 이러한 공격에 대응하기 위해 본 연구에서는 헌법 분류기(Constitutional Classifiers)라는 새로운 보호 방법을 제시합니다헌법 분류기는 허용 및 제한된 콘텐츠를 명시하는 자연어 규칙(헌법)을 사용하여 LLM이 생성한 합성 데이터를 기반으로 훈련됩니다. 이러한 헌법은 새로운 위협 모델에 맞춰 유연하게 업데이트할 수 있으며, 방대한 양의 훈련 데이터를 생성할 수 있도록 합니다.본 연구에서는 입력 전용 분류기와..