Sign In

SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging

Created by
  • Haebom
Category
Empty

저자

Aladin Djuhera, Swanand Ravindra Kadhe, Farhan Ahmed, Syed Zawad, Holger Boche

SafeMERGE: 안전성 유지 및 성능 유지를 위한 경량형 Post-Fine-tuning 프레임워크

개요: 대규모 언어 모델(LLM)을 미세 조정하면 특정 도메인에 맞게 모델을 조정할 수 있지만, 안전성 정렬이 저하되어 유해하거나 비윤리적인 프롬프트에 응답할 수 있습니다. SafeMERGE는 미세 조정 후 안전성을 유지하면서 다운스트림 성능을 유지하는 경량형 프레임워크입니다. SafeMERGE는 코사인 유사성 기준을 사용하여 안전하지 않은 동작에서 벗어나는 경우에만 안전성 정렬 모델 레이어와 미세 조정된 모델 레이어를 선택적으로 병합합니다. 세 개의 LLM 및 두 가지 작업에서 SafeMERGE는 다른 방어 수단에 비해 유해한 출력을 일관되게 줄였으며, 유틸리티에 미미하거나 긍정적인 영향을 미쳤습니다.
시사점, 한계점:
시사점:
SafeMERGE는 미세 조정 과정에서 안전성 손실을 효과적으로 방지하는 간단한 post-fine-tuning 방어 수단입니다.
다른 방어 수단에 비해 유해한 출력을 줄이는 데 일관된 효과를 보였습니다.
유틸리티에 미치는 영향은 미미하거나 긍정적이었습니다.
한계점:
구체적인 한계점에 대한 내용은 논문에 명시되지 않았습니다. (요약본에서 제공되는 정보만으로 판단)
👍