본 논문은 블랙박스 LLM 에이전트의 안전성을 확보하기 위한 포괄적인 레드팀 시스템인 SIRAJ를 제시한다. 이 프레임워크는 에이전트 정의에서 시작하여 다양한 위험 결과, 도구 사용 궤적, 위험 소스를 포괄하는 시드 테스트 케이스를 생성하는 동적 2단계 프로세스를 사용한다. 이후, 이전 시도의 실행 궤적을 기반으로 모델 기반의 적대적 공격을 반복적으로 구축하고 개선한다. 또한, 레드팀 비용을 최적화하기 위해 교사 모델의 구조화된 추론 형태를 활용하여 동일한 효과를 내는 소규모 모델을 훈련하는 모델 증류 접근 방식을 제안한다.