Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

X-Teaming Evolutionary M2S : Découverte automatisée de modèles de jailbreak multi-tours à mono-tour

Created by
  • Haebom

Auteur

Hyunjun Kim, Junwoo Ha, Sangyoon Yu, Parc Haon

Contour

Cet article présente des recherches sur une technique de conversion multi-tours en tour unique (M2S) qui condense les activités répétitives de l'équipe rouge en une seule invite structurée. Contrairement aux études précédentes qui s'appuyaient sur quelques modèles manuscrits, cet article propose le cadre M2S évolutif X-Teaming, qui découvre et optimise automatiquement les modèles M2S à l'aide d'un algorithme évolutionnaire basé sur un modèle de langage (LLM). Il utilise un échantillonnage intelligent provenant de 12 sources et un LLM inspiré de StrongREJECT comme critère, ce qui produit un journal entièrement auditable. Après cinq générations évolutives, avec un seuil de réussite de 0,70, nous obtenons un taux de réussite global de 44,8 % (103 sur 230) sur deux nouvelles familles de modèles et GPT-4.1. Grâce à 2 500 évaluations inter-modèles, nous démontrons que les améliorations structurelles sont transférables, mais varient selon les modèles cibles. Nous avons constaté une corrélation positive entre la longueur des invites et les scores, soulignant l'importance d'une évaluation attentive à la longueur. Le code source, la configuration et les résultats sont disponibles sur GitHub.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre permettant de générer et d’optimiser automatiquement des modèles M2S à l’aide d’un algorithme évolutif basé sur un modèle de langage.
Souligne l’importance de la définition des seuils et de l’évaluation inter-modèles pour une génération réussie de modèles M2S.
Suggérer des orientations de recherche futures en révélant la corrélation entre la longueur de l'invite et la performance.
Bien que cela montre la possibilité d’une amélioration structurelle, cela suggère que les différences de performance entre les modèles doivent être prises en compte.
Limitations:
Le taux de réussite de 44,8% laisse encore une marge de progression.
Les performances sont médiocres pour certains modèles (les deux modèles obtiennent un score de 0 au même seuil).
Il existe une dépendance au LLM utilisé (GPT-4.1), et des recherches supplémentaires sont nécessaires sur la généralisabilité à d'autres LLM.
Une analyse plus approfondie et une compréhension approfondie de la corrélation entre la longueur de l’invite et la performance sont nécessaires.
👍