# Safe Delta: Consistently Preserving Safety when Fine-Tuning LLMs on Diverse Datasets

### 저자

Ning Lu, Shengcai Liu, Jiahao Wu, Weiyu Chen, Zhirui Zhang, Yew-Soon Ong, Qi Wang, Ke Tang

### 개요

대규모 언어 모델(LLM)의 파인튜닝 API 서비스를 통해 사용자는 자신만의 데이터를 업로드하여 LLM을 사용자 지정할 수 있지만, 이는 유해하거나 무해한 사용자 업로드 데이터로 인해 모델의 정렬이 깨져 안전하지 않은 출력으로 이어지는 새로운 안전 위협을 야기합니다.  기존 방어 방법은 다양한 파인튜닝 데이터셋(크기, 작업 등)을 처리하는 데 어려움을 겪으며, 안전성과 유용성 사이의 절충이 필요합니다. 본 논문에서는 파인튜닝 전후의 파라미터 변화(델타 파라미터)를 조정하는 안전 인식 사후 훈련 방어 방법인 Safe Delta를 제안합니다. Safe Delta는 안전성 저하를 추정하고, 안전성 손실을 제한하면서 유용성을 극대화하도록 델타 파라미터를 선택하며, 잔여 안전성 손실을 완화하기 위해 안전 보상 벡터를 적용합니다. 다양한 설정을 가진 네 가지 데이터셋에 대한 광범위한 실험을 통해, 본 접근 방식은 안전성을 유지하면서 무해한 데이터셋으로부터 얻는 유용성 향상에는 영향을 미치지 않음을 보여줍니다.

### 시사점, 한계점

- **시사점:**  파인튜닝 API 서비스의 안전성 문제를 해결하기 위한 효과적인 사후 훈련 방어 기법인 Safe Delta를 제시. 다양한 데이터셋과 설정에서 안전성과 유용성을 동시에 보장.

- **한계점:**  제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.  실제 서비스 환경에서의 안전성 및 효율성 검증 필요. 다양한 종류의 악의적인 데이터셋에 대한 저항성 평가 필요.

[PDF 보기](https://arxiv.org/pdf/2505.12038)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
