본 논문은 대규모 언어 모델(LLM)의 안전성 저하를 나무 탐색 관점에서 모델링하는 다회차 적대적 프레임워크인 Tempest를 소개합니다. Tempest는 정교하게 설계된 단일 프롬프트에 의존하는 단일 회차 탈옥과 달리, 각 회차에서 여러 적대적 프롬프트를 생성하여 이전 응답으로부터의 부분적인 준수를 악용함으로써 대화를 확장합니다. 이러한 점진적인 정책 누출을 추적하고 후속 질의에 재주입함으로써, 사소한 양보가 어떻게 완전히 허용되지 않는 출력으로 축적될 수 있는지 보여줍니다. JailbreakBench 데이터셋에 대한 평가 결과, Tempest는 GPT-3.5-turbo에서 100%, GPT-4에서 97%의 성공률을 단일 다회차 실행으로 달성했으며, Crescendo나 GOAT와 같은 기준 모델보다 적은 질의를 사용했습니다. 이 나무 탐색 방법론은 연속적인 대화 회차에 걸쳐 모델 안전 장치가 어떻게 저하되는지에 대한 심층적인 관점을 제공하며, 언어 모델에 대한 강력한 다회차 테스트 절차의 시급성을 강조합니다.