대규모 언어 모델(LLM)의 파인튜닝 API 서비스를 통해 사용자는 자신만의 데이터를 업로드하여 LLM을 사용자 지정할 수 있지만, 이는 유해하거나 무해한 사용자 업로드 데이터로 인해 모델의 정렬이 깨져 안전하지 않은 출력으로 이어지는 새로운 안전 위협을 야기합니다. 기존 방어 방법은 다양한 파인튜닝 데이터셋(크기, 작업 등)을 처리하는 데 어려움을 겪으며, 안전성과 유용성 사이의 절충이 필요합니다. 본 논문에서는 파인튜닝 전후의 파라미터 변화(델타 파라미터)를 조정하는 안전 인식 사후 훈련 방어 방법인 Safe Delta를 제안합니다. Safe Delta는 안전성 저하를 추정하고, 안전성 손실을 제한하면서 유용성을 극대화하도록 델타 파라미터를 선택하며, 잔여 안전성 손실을 완화하기 위해 안전 보상 벡터를 적용합니다. 다양한 설정을 가진 네 가지 데이터셋에 대한 광범위한 실험을 통해, 본 접근 방식은 안전성을 유지하면서 무해한 데이터셋으로부터 얻는 유용성 향상에는 영향을 미치지 않음을 보여줍니다.