UDora: A Unified Red Teaming Framework against LLM Agents by Dynamically Hijacking Their Own Reasoning
Created by
Haebom
저자
Jiawei Zhang, Shuang Yang, Bo Li
개요
대규모 언어 모델(LLM) 에이전트는 외부 도구를 활용하여 웹 쇼핑, 자동 이메일 회신, 금융 거래와 같은 복잡한 작업에 점점 더 강력해지고 있습니다. 하지만 이러한 발전은 에이전트가 민감한 외부 기능에 접근할 수 있을 때 적대적 공격의 위험을 증폭시킵니다. 본 논문에서는 LLM 에이전트의 추론 과정을 동적으로 탈취하여 악의적인 행동을 강요하도록 설계된 통합 레드 팀 프레임워크인 UDora를 제시합니다. UDora는 주어진 작업에 대한 모델의 추론 추적을 생성한 후, 이 추적 내에서 표적화된 섭동을 삽입할 최적의 지점을 자동으로 식별합니다. 그런 다음 결과적으로 섭동된 추론을 최적화를 위한 대체 응답으로 사용합니다. 이 과정을 반복적으로 적용함으로써 LLM 에이전트는 지정된 악의적인 행동을 수행하거나 특정 악의적인 도구를 호출하도록 유도됩니다. 본 연구의 접근 방식은 세 가지 LLM 에이전트 데이터 세트에서 기존 방법보다 우수한 효과를 보여줍니다. 코드는 https://github.com/AI-secure/UDora 에서 이용 가능합니다.