Sign In

Adaptive Defense against Harmful Fine-Tuning for Large Language Models via Bayesian Data Scheduler

Created by
  • Haebom
Category
Empty

저자

Zixuan Hu, Li Shen, Zhenyi Wang, Yongxian Wei, Dacheng Tao

개요

본 논문은 대규모 언어 모델(LLM)의 서비스형 미세 조정(fine-tuning-as-a-service)에서 발생하는 유해한 미세 조정의 안전 위험을 해결하기 위해, 공격 시뮬레이션 없이 적응형 튜닝 단계 방어 전략인 Bayesian Data Scheduler (BDS)를 제안합니다. BDS는 베이시안 추론을 사용하여 각 데이터 포인트의 안전 속성의 사후 분포를 학습하고, 이 분포에서 샘플링된 안전 속성으로 데이터를 가중하여 유해한 데이터의 영향을 완화합니다. 이는 특정 데이터 세트에 맞게 방어를 조정하여 적응형 방어를 가능하게 합니다. 또한, 새로운 데이터에 효율적으로 전송할 수 있는 신경망 스케줄러를 도입합니다.

시사점, 한계점

시사점:
공격 시뮬레이션 없이 유해한 미세 조정 방어가 가능함을 입증.
특정 데이터 세트에 적응하여 방어 능력을 향상시키는 적응형 방어 전략 제시.
새로운 데이터에 효율적으로 적용할 수 있는 신경망 스케줄러 개발.
다양한 공격 및 방어 설정에서 SOTA 성능 달성.
한계점:
본 논문에서 구체적인 한계점에 대한 언급은 없음.
👍