대규모 언어 모델(LLM)의 안전성 정렬을 우회하는 공격인 Jailbreak 공격이 증가함에 따라, LLM의 사전 위험 탐지를 위한 Red-teaming의 중요성이 대두되고 있습니다. 본 논문은 Composition-of-Principles (CoP) 프레임워크를 통해 AI 에이전트가 Red-teaming 전략을 자동화하고, Jailbreak 프롬프트를 생성하는 에이전트 워크플로우를 제안합니다. CoP는 인간이 제공한 Red-teaming 원칙을 통합하고 조정하여 새로운 Red-teaming 전략을 자동으로 발견할 수 있는 통일되고 확장 가능한 프레임워크를 제공합니다. 주요 LLM을 대상으로 한 실험에서 CoP는 새로운 Jailbreak 프롬프트를 발견하고 단일 턴 공격 성공률을 최대 19.0배 향상시켜 전례 없는 안전 위험을 드러냈습니다.