Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

X-Teaming: Multi-Turn Jailbreaks and Defenses with Adaptive Multi-Agents

Created by
  • Haebom

저자

Salman Rahman, Liwei Jiang, James Shiffer, Genglin Liu, Sheriff Issaka, Md Rizwan Parvez, Hamid Palangi, Kai-Wei Chang, Yejin Choi, Saadia Gabriel

개요

본 논문은 대화형 언어 모델(LM)의 다회차 상호작용에서 발생할 수 있는 안전 위험을 다룹니다. 기존 연구가 주로 단회차 안전성에 초점을 맞춘 것과 달리, 본 논문은 다회차 공격 테스트의 적응성과 다양성 문제를 해결하기 위해 확장 가능한 프레임워크인 X-Teaming을 제시합니다. X-Teaming은 협업 에이전트를 사용하여 해롭지 않은 상호작용이 어떻게 해로운 결과로 악화되는지 체계적으로 탐색하고, 그에 따른 공격 시나리오를 생성합니다. 대표적인 오픈소스 및 클로즈드소스 모델에서 최대 98.1%의 성공률을 달성하여 최첨단 다회차 탈옥 효과 및 다양성을 달성합니다. 특히, 단회차 공격에 거의 면역이라고 여겨졌던 최신 Claude 3.7 Sonnet 모델에 대해 96.2%의 공격 성공률을 달성합니다. 또한, 이전 최고 성능 리소스보다 20배 더 큰 3만 개의 대화형 탈옥 사례를 포함하는 오픈소스 다회차 안전 교육 데이터셋인 XGuard-Train을 소개합니다.

시사점, 한계점

시사점:
다회차 상호작용에서의 언어 모델 안전성 평가 및 향상을 위한 새로운 프레임워크(X-Teaming) 제시.
기존 모델에 대한 다회차 공격의 효과적인 생성 및 높은 성공률 달성 (최대 98.1%).
대규모 다회차 안전 교육 데이터셋(XGuard-Train) 제공.
정교한 대화형 공격 완화를 위한 중요한 도구 및 통찰력 제공.
한계점:
X-Teaming의 일반화 성능에 대한 추가적인 연구 필요.
XGuard-Train 데이터셋의 편향성 및 포괄성에 대한 검토 필요.
실제 세계의 다양한 공격 시나리오를 완벽히 포괄하지 못할 가능성.
특정 모델에 대한 과적합 가능성.
👍