[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Safe Delta: Consistently Preserving Safety when Fine-Tuning LLMs on Diverse Datasets

Created by
  • Haebom

저자

Ning Lu, Shengcai Liu, Jiahao Wu, Weiyu Chen, Zhirui Zhang, Yew-Soon Ong, Qi Wang, Ke Tang

개요

대규모 언어 모델(LLM)의 파인튜닝 API 서비스를 통해 사용자는 자신만의 데이터를 업로드하여 LLM을 사용자 지정할 수 있지만, 이는 유해하거나 무해한 사용자 업로드 데이터로 인해 모델의 정렬이 깨져 안전하지 않은 출력으로 이어지는 새로운 안전 위협을 야기합니다. 기존 방어 방법은 다양한 파인튜닝 데이터셋(크기, 작업 등)을 처리하는 데 어려움을 겪으며, 안전성과 유용성 사이의 절충이 필요합니다. 본 논문에서는 파인튜닝 전후의 파라미터 변화(델타 파라미터)를 조정하는 안전 인식 사후 훈련 방어 방법인 Safe Delta를 제안합니다. Safe Delta는 안전성 저하를 추정하고, 안전성 손실을 제한하면서 유용성을 극대화하도록 델타 파라미터를 선택하며, 잔여 안전성 손실을 완화하기 위해 안전 보상 벡터를 적용합니다. 다양한 설정을 가진 네 가지 데이터셋에 대한 광범위한 실험을 통해, 본 접근 방식은 안전성을 유지하면서 무해한 데이터셋으로부터 얻는 유용성 향상에는 영향을 미치지 않음을 보여줍니다.

시사점, 한계점

시사점: 파인튜닝 API 서비스의 안전성 문제를 해결하기 위한 효과적인 사후 훈련 방어 기법인 Safe Delta를 제시. 다양한 데이터셋과 설정에서 안전성과 유용성을 동시에 보장.
한계점: 제안된 방법의 일반화 성능에 대한 추가적인 연구 필요. 실제 서비스 환경에서의 안전성 및 효율성 검증 필요. 다양한 종류의 악의적인 데이터셋에 대한 저항성 평가 필요.
👍