본 논문은 대규모 언어 모델(LLM)의 시스템 프롬프트 조작을 통한 AI-인간 대화의 해킹이라는 새로운 보안 위협을 제시합니다. 특정 질문(예: "미국 대통령 선거에서 누구에게 투표해야 합니까?", "코로나 백신은 안전합니까?")에 대해서만 악의적인 답변을 생성하도록 LLM의 시스템 프롬프트를 조작하여 악의적인 행위자가 대규모 정보 조작을 수행할 수 있음을 보여줍니다. 이를 위해 연구진은 블랙박스 설정에서 특정 대상 질문에 대한 악의적인 시스템 프롬프트를 자동으로 생성하는 알고리즘인 CAIN을 개발했습니다. 오픈소스 및 상용 LLM을 대상으로 한 평가 결과, CAIN은 표적 질문에 대해 최대 40%의 F1 점수 저하를 달성하면서 일반적인 질문에 대한 정확도는 유지했습니다. 특정 악의적인 답변을 강제로 출력하는 표적 공격에서는 일반 질문에 대한 영향을 최소화하면서 70% 이상의 F1 점수를 달성했습니다. 이는 실제 응용 프로그램에서 LLM의 무결성과 안전을 보장하기 위한 강화된 강건성 측정의 중요성을 강조합니다. 모든 소스 코드는 공개적으로 제공될 예정입니다.