개요: 대규모 언어 모델(LLM)을 미세 조정하면 특정 도메인에 맞게 모델을 조정할 수 있지만, 안전성 정렬이 저하되어 유해하거나 비윤리적인 프롬프트에 응답할 수 있습니다. SafeMERGE는 미세 조정 후 안전성을 유지하면서 다운스트림 성능을 유지하는 경량형 프레임워크입니다. SafeMERGE는 코사인 유사성 기준을 사용하여 안전하지 않은 동작에서 벗어나는 경우에만 안전성 정렬 모델 레이어와 미세 조정된 모델 레이어를 선택적으로 병합합니다. 세 개의 LLM 및 두 가지 작업에서 SafeMERGE는 다른 방어 수단에 비해 유해한 출력을 일관되게 줄였으며, 유틸리티에 미미하거나 긍정적인 영향을 미쳤습니다.