본 논문은 Context Compliance Attack (CCA)라는 새로운 AI 안전 메커니즘 우회 기법을 소개합니다. 기존의 복잡한 프롬프트 엔지니어링이나 계산 집약적인 최적화에 의존하는 방법과 달리, CCA는 배포된 많은 AI 시스템에 내재된 기본적인 아키텍처 취약성을 이용합니다. 대화 기록을 미묘하게 조작하여 모델이 허구의 대화 맥락을 따르도록 유도함으로써 제한된 동작을 유발합니다. 다양한 오픈소스 및 독점 모델에 대한 평가를 통해 이 간단한 공격이 최첨단 안전 프로토콜을 우회할 수 있음을 보여줍니다. 본 논문은 이러한 결과의 의미를 논의하고 이러한 기본적이지만 효과적인 적대적 전술에 대해 AI 시스템을 강화하기 위한 실용적인 완화 전략을 제안합니다.