Sign In

CoP: Agentic Red-teaming for Large Language Models using Composition of Principles

Created by
  • Haebom
Category
Empty

저자

Chen Xiong, Pin-Yu Chen, Tsung-Yi Ho

개요

대규모 언어 모델(LLM)의 안전성 정렬을 우회하는 공격인 Jailbreak 공격이 증가함에 따라, LLM의 사전 위험 탐지를 위한 Red-teaming의 중요성이 대두되고 있습니다. 본 논문은 Composition-of-Principles (CoP) 프레임워크를 통해 AI 에이전트가 Red-teaming 전략을 자동화하고, Jailbreak 프롬프트를 생성하는 에이전트 워크플로우를 제안합니다. CoP는 인간이 제공한 Red-teaming 원칙을 통합하고 조정하여 새로운 Red-teaming 전략을 자동으로 발견할 수 있는 통일되고 확장 가능한 프레임워크를 제공합니다. 주요 LLM을 대상으로 한 실험에서 CoP는 새로운 Jailbreak 프롬프트를 발견하고 단일 턴 공격 성공률을 최대 19.0배 향상시켜 전례 없는 안전 위험을 드러냈습니다.

시사점, 한계점

시사점:
CoP 프레임워크를 통해 LLM의 Red-teaming 프로세스를 자동화하고 효율성을 향상시킴.
새로운 Jailbreak 프롬프트 발견 및 기존 공격 성공률 개선을 통해 LLM 안전성 위험을 효과적으로 탐지.
인간이 제공한 원칙을 기반으로 유연하고 확장 가능한 Red-teaming 프레임워크를 제공.
한계점:
논문에서 구체적인 한계점 언급 없음. (Abstract 내용에 한계점에 대한 정보 부재)
👍