Sign In

SIRAJ: Diverse and Efficient Red-Teaming for LLM Agents via Distilled Structured Reasoning

Created by
  • Haebom
Category
Empty

저자

Kaiwen Zhou, Ahmed Elgohary, A S M Iftekhar, Amin Saied

개요

본 논문은 블랙박스 LLM 에이전트의 안전성을 확보하기 위한 포괄적인 레드팀 시스템인 SIRAJ를 제시한다. 이 프레임워크는 에이전트 정의에서 시작하여 다양한 위험 결과, 도구 사용 궤적, 위험 소스를 포괄하는 시드 테스트 케이스를 생성하는 동적 2단계 프로세스를 사용한다. 이후, 이전 시도의 실행 궤적을 기반으로 모델 기반의 적대적 공격을 반복적으로 구축하고 개선한다. 또한, 레드팀 비용을 최적화하기 위해 교사 모델의 구조화된 추론 형태를 활용하여 동일한 효과를 내는 소규모 모델을 훈련하는 모델 증류 접근 방식을 제안한다.

시사점, 한계점

시사점:
다양한 위험 요소 및 도구 사용 경로를 포괄하는 시드 테스트 케이스 생성으로 위험 요소 검출 범위 확장 (2-2.5배).
모델 증류를 통해 8B 크기의 작은 모델이 671B Deepseek-R1 모델보다 공격 성공률 100% 향상.
반복적 프레임워크, 구조화된 추론 및 레드팀 모델의 일반화 효과 입증.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음. (단, 블랙박스 모델에 대한 의존성, 모델 증류 과정의 잠재적 제약 등 추가적인 연구가 필요할 수 있음).
👍