본 논문은 대규모 언어 모델(LLM)의 파인튜닝 과정에서 안전성이 저하되는 문제를 해결하기 위해 SafeMERGE라는 새로운 프레임워크를 제안합니다. SafeMERGE는 파인튜닝된 모델과 안전하게 정렬된 모델의 레이어를 코사인 유사도 기준을 통해 안전하지 않은 행동만 선택적으로 병합하여 안전성을 유지하면서 작업 유용성을 동시에 보장합니다. Llama-2-7B-Chat 및 Qwen-2-7B-Instruct 모델을 GSM8K 및 PubMedQA 작업에 적용하여 다양한 병합 전략을 통해 다른 파인튜닝 및 파인튜닝 후 접근 방식과 비교 평가한 결과, SafeMERGE가 성능 저하 없이 유해 출력을 일관되게 줄이고, 경우에 따라 성능을 향상시키는 것을 확인했습니다. 선택적이고, 부분 공간을 기반으로 하며, 레이어별 병합 방법을 통해 파인튜닝된 LLM에서 안전성 손실을 효과적으로 방지하고, 단순한 파인튜닝 후 방어 메커니즘보다 성능이 우수함을 보여줍니다.