[논문요약] Chat Vector: Enhancing LLMs via Simple Model Arithmetic

저자

간단한 벡터 연산(덧셈/뺄셈)을 통해 새로운 언어에 대한 instruction following 능력과 human value alignment 능력을 부여하는 방법을 제시

Chat Vector라는 개념을 도입하여, 사전 학습된 기본 모델(예: LLaMA2)과 해당 챗 모델(예: LLaMA2-chat)의 가중치 차이를 이용하여 Chat Vector를 추출
Continual Pretraining(CP)을 통해 Target language(예를 들어 한글)를 습득한 모델에 위에서 구한 Chat Vector를 더하여 새로운 언어에서 챗 기능을 활성화
기존의 CP → SFT → RLHF 방식 대신 CP + 챗 벡터 방식으로 간단하게 모델을 개선
이 방법은 추가 학습 없이 모델의 파라미터 공간에서 벡터 연산만으로 새로운 언어에 대한 대화 능력과 안전성을 확보할 수 있음

챗 벡터를 추가한 모델이 instruction following 능력, Toxicity 완화 능력, 멀티턴 대화 능력에서 성능 향상
베이스라인 모델
- Traditional Chinese LLaMA: 영어 LLaMA에 중국어 corpus(3.1B Tokens)으로 CP 한 모델.
- Chinese-LLaMA는 다른 논문에서 공개한 중국어 버전의 LLaMA
실험 결과

CP 후에 챗 벡터를 추가하는 것이 LLaMA2-chat을 직접 사전 학습하는 것보다 더 나은 결과를 얻었음
- 당연한거 아닌가? Chat 모델에다가 다시 프리트레이닝을 해버리면 catastropic forgetting이 일어날 것 같은데..
- 특이한 점은 Chat에 CP + FT 한게, LLM+CP+FT 보다 더 좋다는거.. catastropic forgetting이 Chat에서 많이 삭제가 안되고 여전히 남아있어서 그럴까?
Fine-tuning을 한 후에 챗 벡터를 추가하면 FT 데이터셋의 크기나 LLM의 언어에 관계없이 성능이 향상
- 가장 Promissing 한 결과 같다. 어쨌든 ChatVector를 단순히 더하는 것 만으로도 성능이 향상 됨을 입증한 것이니까.
챗 벡터는 언어 능력과 지식 기반 측면에서 catastrophic forgetting을 유발하지 않았음
- TMMLU+ 벤치마크를 사용하여 모델의 지식 보존 능력을 평가
- 그러나 점수가 상승하지는 않았음. CP+FT+CV 는 왜 결과가 없을까?
중국어 외 한국어에도 적용해보았으나 동일한 효과가 있었음
챗 벡터는 여러 모델이 대화 기능을 빠르게 얻을 수 있도록 하며, RLHF를 재구현하는 것보다 계산적으로 더 효율적
챗 벡터를 추가한 모델은 안전성 평가, 멀티 턴 대화 능력 향상

챗 벡터를 추가했을 때 모델이 목표 언어 대신 영어로 응답하는 경우가 발생함. 이는 챗 벡터의 가중치를 조절함으로써 완화할 수 있지만, 최적의 가중치를 찾는 연구가 필요
자동 평가에만 의존하고 있어 응답에 대한 human evaluation 필요
LLaMA2-chat의 RLHF 학습 데이터를 얻을 수 없어 RLHF와의 직접적인 비교가 불가능