본 논문은 AI 모델의 잠재적 위험을 효과적으로 파악하기 위한 레드팀 방식에 대한 연구를 제시합니다. 특히, 자동화된 레드팀 접근 방식에 사람들의 배경 및 정체성을 통합하기 위한 첫 번째 단계로, 다양한 적대적 전략을 탐색하기 위해 "페르소나"를 활용하는 새로운 방법인 PersonaTeaming을 개발하고 평가합니다. PersonaTeaming은 "레드팀 전문가" 또는 "일반 AI 사용자" 페르소나를 기반으로 프롬프트를 변형하는 방법을 사용하며, 다양한 페르소나 유형을 동적으로 생성하는 알고리즘을 개발했습니다. 또한, 적대적 프롬프트의 다양성을 측정하기 위한 새로운 메트릭을 도입했습니다. 실험 결과, PersonaTeaming은 기존의 자동화된 레드팀 방법보다 공격 성공률을 향상시키면서 프롬프트 다양성을 유지하는 것으로 나타났습니다.