대화형 인터페이스의 발전으로 LLM의 사용성이 향상되었지만, 대화 이력에 대한 의존성이 새로운 공격 표면을 만들었다. 본 논문은 새로운 탈옥 기법인 트로이 목마 프롬프팅(Trojan Horse Prompting)을 소개한다. 공격자는 모델의 API에 제공되는 대화 이력 내에 모델의 과거 발화를 위조하여 안전 메커니즘을 우회한다. 악성 페이로드는 모델이 생성한 메시지에 주입되고, 이후 무해한 사용자 프롬프트를 통해 유해 콘텐츠 생성을 유발한다. 이 취약성은 비대칭 안전 정렬(Asymmetric Safety Alignment)에서 비롯된다. 모델은 유해한 사용자 요청을 거부하도록 광범위하게 훈련되지만, 자체 대화 이력에 대한 비슷한 회의적인 태도는 부족하다. "과거"에 대한 암묵적인 신뢰가 높은 영향의 취약성을 만든다. Google의 Gemini-2.0-flash-preview-image-generation에 대한 실험적 검증을 통해 트로이 목마 프롬프팅이 기존 사용자 턴 탈옥 방법보다 훨씬 높은 공격 성공률(ASR)을 달성함을 보여준다. 이러한 결과는 현대 대화형 AI 보안의 근본적인 결함을 드러내며, 입력 수준 필터링에서 대화 컨텍스트 무결성에 대한 강력한 프로토콜 수준 검증으로의 패러다임 전환이 필요함을 시사한다.