본 논문은 대규모 언어 모델(LLM)의 악용 가능성에 대한 우려를 다루고, 특히 배포 전 인간 선호도 데이터에 맞춰져 있음에도 불구하고 다양한 악의적인 공격에 취약한 LLM의 안전성 향상을 위한 연구를 제시합니다. 연구진은 적대적 테스트(red-teaming) 전략을 채택하여, SeqAR이라는 간단하지만 효과적인 프레임워크를 통해 자동으로 탈옥 프롬프트(jailbreak prompts)를 설계하는 방법을 제안합니다. SeqAR은 여러 탈옥 캐릭터를 생성하고 최적화한 후, 이를 단일 질의에 순차적으로 적용하여 대상 LLM의 안전 장치를 우회합니다. 기존 연구와 달리 독점적 LLM이나 전문가가 만든 탈옥 템플릿에 의존하지 않고, 오픈소스 LLM을 사용하여 콜드 스타트 시나리오에서 탈옥 프롬프트를 생성하고 최적화합니다. 실험 결과, SeqAR은 GPT-3.5-1106과 GPT-4의 안전 정렬을 각각 88%와 60%의 성공률로 우회하는 것으로 나타났습니다. 또한, 생성된 템플릿의 다른 LLM 및 홀드아웃 악의적 요청에 대한 전이성을 광범위하게 평가하고, SeqAR이 설계한 탈옥 공격에 대한 방어 전략도 탐구합니다.