본 논문은 대규모 언어 모델(LLM)의 보안 취약성, 특히 탈옥 공격(jailbreak attack)에 대한 연구 결과를 제시합니다. 기존의 탈옥 공격 방법들이 반복적인 질의와 모델 간 일반화 부족이라는 한계를 지닌다는 점을 지적하며, 이를 해결하기 위해 새로운 탈옥 공격 기법인 ICE와 탈옥 공격 평가를 위한 새로운 데이터셋인 BiSceneEval을 제안합니다. ICE는 의도 은폐와 주의 전환(Intent Concealment and divErsion) 기법을 사용하여 단일 질의로 높은 성공률을 달성하며, BiSceneEval은 질의응답과 텍스트 생성 작업 모두를 포함하여 LLM의 강건성을 포괄적으로 평가할 수 있도록 설계되었습니다. 실험 결과, ICE는 기존 기법보다 우수한 성능을 보이며, 현재의 방어 메커니즘의 취약성을 드러냅니다. 결론적으로, LLM의 보안 향상을 위해 사전 정의된 보안 메커니즘과 실시간 의미 분석을 통합하는 하이브리드 보안 전략이 필요함을 강조합니다.