본 논문은 대규모 언어 모델(LLM)과 그 안전 장치인 가드레일을 동시에 우회하는 공격인 이중 탈옥(dual-jailbreaking)에 대한 연구를 다룹니다. 기존 연구의 한계를 극복하기 위해, 목표 지향적인 이중 탈옥 프레임워크인 DualBreach를 제안합니다. DualBreach는 목표 지향적 초기화(TDI) 전략과 다중 목표 최적화(MTO) 방법을 사용하여 가드레일과 LLM을 동시에 조작하여 효율적으로 이중 탈옥을 수행합니다. 블랙박스 가드레일의 경우, 오픈소스 가드레일을 활용하거나 프록시 모델을 학습하여 MTO 과정에 통합합니다. 실험 결과, DualBreach는 기존 최첨단 방법보다 적은 쿼리 수로 더 높은 성공률(GPT-4와 Llama-Guard-3 조합에서 평균 93.67%)을 달성했습니다. 또한, 방어 메커니즘으로 여러 가드레일을 통합한 XGBoost 기반 앙상블 방어 메커니즘인 EGuard를 제안하고, Llama-Guard-3보다 우수한 성능을 보임을 보였습니다.