[논문 요약] Constitutional Classifier

https://www.anthropic.com/news/constitutional-classifiers

(google notebook-lm으로 작성)

핵심 요약
대규모 언어 모델(LLM)은 모델 안전 장치를 우회하여 유해한 정보를 추출할 수 있는 유니버설 jailbreak 공격에 취약합니다. 이러한 공격에 대응하기 위해 본 연구에서는 헌법 분류기(Constitutional Classifiers)라는 새로운 보호 방법을 제시합니다
  • 헌법 분류기는 허용 및 제한된 콘텐츠를 명시하는 자연어 규칙(헌법)을 사용하여 LLM이 생성한 합성 데이터를 기반으로 훈련됩니다. 이러한 헌법은 새로운 위협 모델에 맞춰 유연하게 업데이트할 수 있으며, 방대한 양의 훈련 데이터를 생성할 수 있도록 합니다.
  • 본 연구에서는 입력 전용 분류기와 출력 전용 분류기로 구성된 이중 분류기 방어 시스템을 주로 사용합니다. 출력 분류기는 스트리밍 방식으로 출력을 필터링하며, 입력 분류기는 출력 분류기를 우회하려는 시도를 감지하고 차단할 수 있습니다.
  • 헌법 기반 합성 데이터 생성 외에도 Automated Red-teaming(ART)을 통해 추가적인 훈련 데이터를 생성합니다. ART는 jailbreak 기술에 대한 설명을 통해 유해한 공격을 생성하도록 설계된 모델을 활용합니다.
  • 3,000시간 이상의 인간 레드 티밍을 통해 초기 헌법 분류기로 보호되는 LLM은 대부분의 대상 쿼리에서 보호되지 않은 모델과 유사한 수준의 상세 정보를 추출하는 유니버설 jailbreak을 발견하지 못했습니다. 자동 평가에서도 향상된 분류기는 보류된 특정 도메인 jailbreak에 대해 강력한 방어를 입증했습니다.
  • 이러한 분류기는 실제 배포 가능성을 유지하며, 프로덕션 트래픽 거부율이 0.38% 증가하고 추론 오버헤드가 23.7% 증가하는 제한적인 비용으로 높은 견고성을 제공합니다.
  • 연구 결과는 유니버설 jailbreak에 대한 방어가 실제 배포 가능성을 유지하면서도 가능하다는 것을 보여줍니다.
  • 분류기의 견고성은 모델 크기, 훈련 데이터 양, 데이터 증강 기술을 통해 향상될 수 있습니다. 또한 무해한 콘텐츠에 대한 헌법을 포함하는 것이 분류기 성능에 매우 중요합니다. 분류기를 기본 모델에서 초기화하는 것이 사전 훈련된 모델에서 초기화하는 것보다 더 나은 성능을 보이는 경향이 있습니다.
  • 헌법 분류기는 단순한 무해성 훈련보다 훨씬 강력한 보호 기능을 제공합니다.
  • 전반적으로 본 연구는 헌법 분류기가 LLM의 유해한 사용을 방지하기 위한 효과적이고 실용적인 솔루션임을 시사합니다.