본 논문은 대규모 언어 모델(LLM)의 시스템 프롬프트를 조작하여 특정 질문에 대해서만 악의적인 답변을 생성하는 새로운 보안 위협인 "AI-인간 대화 하이재킹"을 제시합니다. 악의적인 행위자는 무해해 보이는 시스템 프롬프트를 온라인에 퍼뜨려 대규모 정보 조작을 수행할 수 있습니다. 연구진은 이러한 공격을 입증하기 위해, 블랙박스 설정에서 특정 대상 질문에 대한 악의적인 시스템 프롬프트를 자동으로 생성하는 알고리즘 CAIN을 개발했습니다. 오픈소스 및 상용 LLM 모두에서 평가한 결과, CAIN은 대상 질문에 대해 최대 40%의 F1 점수 저하를 달성하면서 무해한 입력에 대한 정확도는 높게 유지했습니다. 특정 악의적인 답변을 생성하는 데는 70% 이상의 F1 점수를 달성하면서 무해한 질문에 대한 영향은 최소화했습니다. 이 결과는 실제 응용 프로그램에서 LLM의 무결성과 안전을 보장하기 위한 강화된 강건성 측정의 중요성을 강조합니다. 소스 코드는 공개적으로 제공될 예정입니다.