Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training

Created by
  • Haebom

저자

Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Jiahao Xu, Tian Liang, Pinjia He, Zhaopeng Tu

개요

본 연구는 대규모 언어 모델(LLM)의 안전 조정 과정에서 안전 조정 데이터 내 거부 입장 편향 문제를 해결하여 안전하지 않은 콘텐츠 생성을 적절히 거부하는 모델의 능력을 향상시키는 데 중점을 둡니다. 연구에서는 Decoupled Refusal Training (DeRTa)라는 새로운 접근 방식을 제시합니다. DeRTa는 유해한 프롬프트에 대한 준수를 거부하는 모델의 능력을 향상시켜 안전성을 강화합니다. DeRTa는 유해한 응답 접두사를 사용한 최대 가능도 추정(MLE)과 강화 전이 최적화(RTO)라는 두 가지 새로운 구성 요소를 통합합니다. MLE는 안전한 응답의 시작 부분에 유해한 응답 세그먼트를 추가하여 모델이 안전하지 않은 콘텐츠를 인식하고 회피하도록 훈련하고, RTO는 모델이 유해한 응답 시퀀스 전체에서 잠재적 위험에서 안전 거부로 일관되게 전환할 수 있도록 합니다. LLaMA3 및 Mistral 모델 패밀리를 사용한 실증적 평가 결과, 제안된 방법이 성능 저하 없이 모델의 안전성을 향상시킬 뿐만 아니라 기존 방법보다 공격 방어에 더 효과적임을 보여줍니다.

시사점, 한계점

시사점:
LLM의 안전 조정 과정에서 존재하는 거부 입장 편향 문제를 효과적으로 해결하는 DeRTa라는 새로운 방법 제시.
MLE와 RTO라는 두 가지 혁신적인 구성 요소를 통해 LLM의 안전성을 크게 향상시킴.
다양한 공격 시나리오에서 기존 방법보다 우수한 성능을 입증.
성능 저하 없이 안전성을 향상시키는 효율적인 방법을 제시.
한계점:
본 연구에서 사용된 공격 시나리오의 종류 및 범위가 제한적일 수 있음.
다양한 LLM 아키텍처에 대한 일반화 가능성에 대한 추가 연구가 필요함.
실제 환경에서의 DeRTa의 효과 및 안전성에 대한 추가 검증 필요.
DeRTa의 계산 비용 및 효율성에 대한 자세한 분석 필요.
👍