Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Sonder les sous-espaces latents dans le LLM pour la sécurité de l'IA : identifier et manipuler les états adverses

Created by
  • Haebom

Auteur

Xin Wei Chia, Swee Liang Wong, Jonathan Pan

Contour

Cet article aborde la question de la sécurité des modèles de langage à grande échelle (MLL), vulnérables aux manipulations adverses telles que le jailbreaking par injection d'impulsions. Nous étudions les sous-espaces latents des états sûrs et jailbreakés en extrayant les activations latentes des LLM. Inspirés par la dynamique du réseau d'attracteurs humains en neurosciences, nous émettons l'hypothèse que les activations des LLM se stabilisent dans des états métastables pouvant être identifiés et perturbés pour induire des transitions d'état. À l'aide de techniques de réduction de dimensionnalité, nous projetons les activations des réponses sûres et jailbreakées afin de révéler les sous-espaces latents dans l'espace de faible dimension. Nous dérivons ensuite des vecteurs de perturbation qui, appliqués aux représentations sûres, déplacent le modèle vers des états jailbreakés. Les résultats montrent que ces interventions causales conduisent à des réponses jailbreakées statistiquement significatives pour certaines invites. Nous étudions également comment ces perturbations se propagent à travers les couches du modèle et si les changements d'état induits sont maintenus localement ou se répercutent en cascade dans tout le réseau. Les résultats indiquent que les perturbations ciblées induisent des changements distincts dans les activations et les réponses du modèle. Cette recherche ouvre la voie à des défenses proactives potentielles qui passent des méthodes traditionnelles basées sur des mesures de protection à des techniques préventives et indépendantes du modèle qui neutralisent les États adverses au niveau représentationnel.

Takeaways, Limitations

Takeaways:
Fournit de nouvelles informations sur les exploits de jailbreak de LLM.
Nous présentons la possibilité de détecter et de se défendre contre les vulnérabilités des modèles grâce à l'analyse du sous-espace latent.
Cela démontre le potentiel de nouvelles stratégies de défense qui vont au-delà des méthodes de défense traditionnelles basées sur les mesures de protection.
Nous présentons un nouveau paradigme de défense contre les attaques adverses grâce à la manipulation de la représentation interne du modèle.
Limitations:
Des études supplémentaires sont nécessaires pour déterminer si la méthode proposée est efficace contre tous les types d’attaques par injection rapide.
La validation de la généralisabilité des résultats à des LLM et des invites spécifiques est nécessaire.
Des recherches sont nécessaires sur son applicabilité et son évolutivité aux LLM à grande échelle.
L’interprétabilité et les performances de généralisation des vecteurs de perturbation développés doivent être améliorées.
👍