Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PersonaTeaming : explorer comment l'introduction de personas peut améliorer le red-teaming automatisé par IA

Created by
  • Haebom

Auteur

Wesley Hanwen Deng, Sunnie SY Kim, Akshita Jha, Ken Holstein, Motahare Eslami, Lauren Wilcox, Leon A Gatys

Contour

Cet article examine les activités de red teaming pour détecter efficacement les risques potentiels dans les modèles d'IA. Nous soulignons que les approches automatisées de red teaming existantes ne prennent pas en compte les origines et les identités humaines, et proposons PersonaTeaming, une nouvelle méthode permettant d'explorer diverses stratégies d'adversaires à l'aide de personas. Nous développons une méthodologie permettant de modifier les invites en fonction des personas, tels que « expert en red team » ou « utilisateur généraliste de l'IA », ainsi qu'un algorithme permettant de générer automatiquement différents types de personas. Nous proposons également une nouvelle mesure de la diversité des invites d'adversaires. Les résultats expérimentaux montrent que PersonaTeaming améliore les taux de réussite des attaques jusqu'à 144,1 % par rapport à la méthode de pointe existante, RainbowPlus. Nous analysons les avantages et les inconvénients des différents types de personas et des méthodes de modification, et suggérons des pistes de recherche futures pour explorer la complémentarité entre les approches automatisées et humaines de red teaming.

Takeaways, Limitations

Takeaways:
Une nouvelle approche qui intègre l’identité et l’histoire humaines dans les activités automatisées de red teaming.
Efficacité confirmée de l'amélioration du taux de réussite des attaques d'invites hostiles via PersonaTeaming.
Développement d'une nouvelle métrique pour mesurer la diversité des incitations contradictoires
Une nouvelle direction de recherche sur la complémentarité entre les approches automatisées et humaines des équipes rouges.
Limitations:
Actuellement, PersonaTeaming est limité à certains types de personnages et méthodes de transformation. Des recherches supplémentaires sont nécessaires pour explorer un éventail plus large de types de personnages et de méthodes de transformation.
Une validation supplémentaire de la généralisabilité des indicateurs développés est nécessaire.
Il est possible que les risques complexes du monde réel ne soient pas pleinement pris en compte.
Des recherches supplémentaires sont nécessaires sur les biais et les considérations éthiques des algorithmes de génération de caractères.
👍