본 논문은 대화형 언어 모델(LM)의 다회차 상호작용에서 발생할 수 있는 안전 위험을 다룹니다. 기존 연구가 주로 단회차 안전성에 초점을 맞춘 것과 달리, 본 논문은 다회차 공격 테스트의 적응성과 다양성 문제를 해결하기 위해 확장 가능한 프레임워크인 X-Teaming을 제시합니다. X-Teaming은 협업 에이전트를 사용하여 해롭지 않은 상호작용이 어떻게 해로운 결과로 악화되는지 체계적으로 탐색하고, 그에 따른 공격 시나리오를 생성합니다. 대표적인 오픈소스 및 클로즈드소스 모델에서 최대 98.1%의 성공률을 달성하여 최첨단 다회차 탈옥 효과 및 다양성을 달성합니다. 특히, 단회차 공격에 거의 면역이라고 여겨졌던 최신 Claude 3.7 Sonnet 모델에 대해 96.2%의 공격 성공률을 달성합니다. 또한, 이전 최고 성능 리소스보다 20배 더 큰 3만 개의 대화형 탈옥 사례를 포함하는 오픈소스 다회차 안전 교육 데이터셋인 XGuard-Train을 소개합니다.
시사점, 한계점
•
시사점:
◦
다회차 상호작용에서의 언어 모델 안전성 평가 및 향상을 위한 새로운 프레임워크(X-Teaming) 제시.