본 논문은 대규모 언어 모델(LLM)의 프롬프트 주입 및 탈옥 공격 방지 시스템인 가드레일 시스템의 취약성을 보여줍니다. 기존 문자 주입 방식과 알고리즘 적대적 기계 학습(AML) 회피 기법을 사용하여 Microsoft의 Azure Prompt Shield와 Meta의 Prompt Guard를 포함한 여섯 가지 주요 보호 시스템을 우회하는 두 가지 방법을 제시합니다. 실험 결과, 두 방법 모두 탐지를 회피하면서 적대적 유용성을 유지하며, 경우에 따라 최대 100%의 회피 성공률을 달성하는 것으로 나타났습니다. 또한, 오프라인 화이트박스 모델로 계산된 단어 중요도 순위를 활용하여 블랙박스 대상에 대한 공격 성공률(ASR)을 높일 수 있음을 보여줍니다. 이 연구 결과는 현재 LLM 보호 메커니즘의 취약성을 드러내고 더욱 강력한 가드레일 시스템의 필요성을 강조합니다.