Optimus: A Robust Defense Framework for Mitigating Toxicity while Fine-Tuning Conversational AI

작성자

Haebom

카테고리

Empty

저자

Aravind Cheruvu, Shravya Kanchi, Sifat Muhammad Abdullah, Nicholas Ka-Shing Kong, Daphne Yao, Murtuza Jadliwala, Bimal Viswanath

💡 개요

신뢰할 수 없는 데이터셋으로 LLM을 미세 조정할 때 발생하는 유해한 행동 주입 위험을 해결하기 위해, 본 논문은 Optimus라는 새로운 방어 프레임워크를 제안합니다. Optimus는 부정확하거나 편향된 독성 분류기에도 강건하게 작동하며, 기존 LLM의 안전 정렬을 재활용하는 훈련 없는 독성 분류 방식과 합성 "치유 데이터" 및 DPO를 결합한 이중 정렬 전략을 사용합니다. 이러한 방법론을 통해 Optimus는 심각하게 편향된 분류기에서도 유해성을 효과적으로 완화하고, 최첨단 방어 기법보다 우수한 성능을 보이며 적응형 공격에도 강건함을 입증했습니다.

🔑 시사점 및 한계

•

불완전하거나 편향된 독성 탐지에도 불구하고 LLM 미세 조정 시 발생하는 유해성을 강건하게 완화할 수 있는 새로운 방어 프레임워크 Optimus를 제시했습니다.

•

기존 LLM의 안전 정렬을 재활용하는 훈련 없는 독성 분류 방식과 합성 데이터 및 DPO를 결합한 효율적인 이중 정렬 전략을 통해 대화형 AI의 유용성을 보존하면서 안전성을 높였습니다.

•

최첨단 기법 대비 우수한 성능과 적응형 공격에 대한 높은 복원력을 입증하여, 실제 환경에서의 LLM 안전성 강화에 기여할 수 있습니다.

•

사용된 합성 데이터의 품질과 다양성이 방어 성능에 미치는 영향, 그리고 모델의 전반적인 성능 저하 가능성에 대한 추가적인 분석이 필요합니다.

PDF 보기

Made with Slashpage