본 연구는 대규모 언어 모델(LLM)의 안전 조정 과정에서 안전 조정 데이터 내 거부 입장 편향 문제를 해결하여 안전하지 않은 콘텐츠 생성을 적절히 거부하는 모델의 능력을 향상시키는 데 중점을 둡니다. 연구에서는 Decoupled Refusal Training (DeRTa)라는 새로운 접근 방식을 제시합니다. DeRTa는 유해한 프롬프트에 대한 준수를 거부하는 모델의 능력을 향상시켜 안전성을 강화합니다. DeRTa는 유해한 응답 접두사를 사용한 최대 가능도 추정(MLE)과 강화 전이 최적화(RTO)라는 두 가지 새로운 구성 요소를 통합합니다. MLE는 안전한 응답의 시작 부분에 유해한 응답 세그먼트를 추가하여 모델이 안전하지 않은 콘텐츠를 인식하고 회피하도록 훈련하고, RTO는 모델이 유해한 응답 시퀀스 전체에서 잠재적 위험에서 안전 거부로 일관되게 전환할 수 있도록 합니다. LLaMA3 및 Mistral 모델 패밀리를 사용한 실증적 평가 결과, 제안된 방법이 성능 저하 없이 모델의 안전성을 향상시킬 뿐만 아니라 기존 방법보다 공격 방어에 더 효과적임을 보여줍니다.
시사점, 한계점
•
시사점:
◦
LLM의 안전 조정 과정에서 존재하는 거부 입장 편향 문제를 효과적으로 해결하는 DeRTa라는 새로운 방법 제시.