Cet article présente le « détournement de conversation IA-humain », une nouvelle menace de sécurité qui manipule les invites système d'un modèle linguistique à grande échelle (MLH) afin de générer des réponses malveillantes uniquement pour des questions spécifiques. Les acteurs malveillants peuvent manipuler l'information à grande échelle en diffusant en ligne des invites système apparemment anodines. Pour démontrer cette attaque, les chercheurs ont développé CAIN, un algorithme qui génère automatiquement des invites système malveillantes pour des questions ciblées spécifiques dans un environnement de boîte noire. Évalué sur des LLM open source et commerciaux, CAIN a obtenu une dégradation du score F1 allant jusqu'à 40 % pour les questions ciblées tout en conservant une grande précision pour les entrées anodines. Il a obtenu un score F1 de plus de 70 % pour la génération de réponses malveillantes spécifiques tout en minimisant l'impact sur les questions anodines. Ces résultats soulignent l'importance de renforcer les mesures de robustesse afin de garantir l'intégrité et la sécurité des LLM dans les applications réelles. Le code source sera rendu public.