Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Manipulation contradictoire de modèles de raisonnement à l'aide de représentations internes

Created by
  • Haebom

Auteur

Kureha Yamaguchi, Benjamin Etheridge, Andy Arditi

Contour

Cet article présente des recherches sur la vulnérabilité d'un modèle d'inférence générant des jetons de chaîne de pensée (CoT) aux attaques de jailbreak. Contrairement aux modèles de langage existants, qui prennent des décisions de rejet à la frontière entre l'invite et la réponse, nous avons constaté que le modèle DeepSeek-R1-Distill-Llama-8B prend des décisions de rejet au cours du processus de génération de la CoT. Nous avons identifié une direction linéaire (direction de l'attention) dans l'espace d'activation lors de la génération des jetons de CoT, qui prédit si le modèle rejettera ou acceptera. Cette direction correspond à un schéma d'inférence délibérée dans le texte généré. Supprimer cette direction des activations du modèle augmente l'acceptation néfaste, permettant ainsi le jailbreak du modèle. Nous démontrons également que le résultat final peut être contrôlé en manipulant uniquement les activations des jetons de CoT, et que l'intégration de cette direction dans une attaque par invite améliore le taux de réussite. Par conséquent, nos résultats suggèrent que la chaîne de pensée elle-même représente une nouvelle cible prometteuse pour la manipulation antagoniste des modèles d'inférence.

Takeaways, Limitations

Takeaways:
Nous révélons que le processus de génération de chaîne d'événements (CoT) est vulnérable aux attaques de jailbreaking sur le modèle d'inférence.
Nous montrons que la direction « d’attention » qui influence la décision de rejet/acceptation du modèle peut être identifiée dans l’espace d’activation et manipulée pour contrôler la sortie du modèle.
Cela suggère la possibilité de contrôler la sortie finale en manipulant simplement l'activation du jeton CoT.
Nous montrons que l’intégration d’une direction « attention » dans les attaques basées sur des invites peut augmenter leur taux de réussite.
Suggérant que la chaîne de pensée elle-même pourrait devenir une nouvelle cible pour les attaques adverses sur les modèles d’inférence.
Limitations:
Comme il s’agit d’une étude sur un modèle spécifique (DeepSeek-R1-Distill-Llama-8B), la généralisabilité des résultats à d’autres modèles est limitée.
Une analyse plus approfondie du mécanisme exact et du fonctionnement interne du modèle dans le sens « attention » est nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer l’applicabilité et les risques réels des techniques d’attaque proposées.
👍