본 논문은 대규모 언어 모델(LLM)의 서비스형 미세 조정(fine-tuning-as-a-service)에서 발생하는 유해한 미세 조정의 안전 위험을 해결하기 위해, 공격 시뮬레이션 없이 적응형 튜닝 단계 방어 전략인 Bayesian Data Scheduler (BDS)를 제안합니다. BDS는 베이시안 추론을 사용하여 각 데이터 포인트의 안전 속성의 사후 분포를 학습하고, 이 분포에서 샘플링된 안전 속성으로 데이터를 가중하여 유해한 데이터의 영향을 완화합니다. 이는 특정 데이터 세트에 맞게 방어를 조정하여 적응형 방어를 가능하게 합니다. 또한, 새로운 데이터에 효율적으로 전송할 수 있는 신경망 스케줄러를 도입합니다.