Cet article aborde la question de la sécurité des modèles de langage à grande échelle (MLL), vulnérables aux manipulations adverses telles que le jailbreaking par injection d'impulsions. Nous étudions les sous-espaces latents des états sûrs et jailbreakés en extrayant les activations latentes des LLM. Inspirés par la dynamique du réseau d'attracteurs humains en neurosciences, nous émettons l'hypothèse que les activations des LLM se stabilisent dans des états métastables pouvant être identifiés et perturbés pour induire des transitions d'état. À l'aide de techniques de réduction de dimensionnalité, nous projetons les activations des réponses sûres et jailbreakées afin de révéler les sous-espaces latents dans l'espace de faible dimension. Nous dérivons ensuite des vecteurs de perturbation qui, appliqués aux représentations sûres, déplacent le modèle vers des états jailbreakés. Les résultats montrent que ces interventions causales conduisent à des réponses jailbreakées statistiquement significatives pour certaines invites. Nous étudions également comment ces perturbations se propagent à travers les couches du modèle et si les changements d'état induits sont maintenus localement ou se répercutent en cascade dans tout le réseau. Les résultats indiquent que les perturbations ciblées induisent des changements distincts dans les activations et les réponses du modèle. Cette recherche ouvre la voie à des défenses proactives potentielles qui passent des méthodes traditionnelles basées sur des mesures de protection à des techniques préventives et indépendantes du modèle qui neutralisent les États adverses au niveau représentationnel.