Cet article présente les résultats d'une étude sur les attaques par rejeu, une menace pour la sécurité des modèles de langage à grande échelle (MLL). L'accent est mis sur les attaques qui exploitent la fonctionnalité de préremplissage des réponses contrôlée par l'utilisateur, plutôt que sur les attaques au niveau des invites, principalement étudiées dans les études précédentes. Le préremplissage permet aux attaquants de manipuler le début de la sortie du modèle, faisant passer le paradigme d'attaque basé sur la persuasion à une manipulation directe de l'état du modèle. Une analyse de sécurité en boîte noire a été réalisée sur 14 LLM afin de classer les attaques par rejeu au niveau du préremplissage et d'évaluer leur efficacité. Les résultats expérimentaux montrent que les attaques utilisant des méthodes adaptatives ont atteint des taux de réussite supérieurs à 99 % sur plusieurs modèles, et l'analyse de probabilité au niveau du jeton a confirmé que la manipulation de l'état initial a entraîné un changement de probabilité du premier jeton, du rejet à la coopération. De plus, nous démontrons que les attaques par rejeu au niveau du préremplissage améliorent efficacement le taux de réussite des attaques au niveau des invites existantes de 10 à 15 points de pourcentage. L'évaluation de plusieurs stratégies de défense a révélé que les filtres de contenu existants offrent une protection limitée et que les méthodes de détection axées sur la relation opérationnelle entre les invites et le préremplissage sont plus efficaces. En conclusion, nous exposons les vulnérabilités de l’alignement actuel de la sécurité LLM et soulignons la nécessité de traiter les surfaces d’attaque pré-remplies dans les futures formations en sécurité.