Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

JADES : un cadre universel pour l'évaluation des jailbreaks via la notation décompositionnelle

Created by
  • Haebom

Auteur

Junjie Chu, Mingjie Li, Ziqing Yang, Ye Leng, Chenhao Lin, Chao Shen, Michael Backes, Yun Shen, Yang Zhang

Contour

JADES (Jailbreak Assessment via Decompositional Scoring) est un cadre d'évaluation polyvalent de la réussite du jailbreak, conçu pour améliorer les méthodes d'évaluation actuelles, imprécises et subjectives. Il décompose les questions problématiques en sous-questions pondérées et note chaque sous-réponse pour parvenir à une décision finale. De plus, il peut éventuellement inclure un module de vérification des faits pour améliorer la détection des hallucinations. Dans cet article, nous présentons un nouveau benchmark, JailbreakQR, composé de 400 paires de réponses-invites de jailbreak, et validons JADES par rapport à celui-ci. JADES atteint un taux de concordance de 98,5 % avec les évaluateurs humains, démontrant une amélioration de plus de 9 % par rapport aux méthodes existantes et exposant le problème de surestimation des méthodes d'évaluation actuelles.

Takeaways, Limitations

Takeaways:
Contribue à résoudre les problèmes d’inexactitude et de subjectivité des évaluations existantes du taux de réussite des jailbreaks.
JADES fournit des évaluations d'attaques de jailbreak précises, cohérentes et interprétables.
Fournir une base de référence fiable pour mesurer les futures attaques de jailbreak.
Correction du taux de réussite des attaques de jailbreak, qui était surestimé dans les études précédentes.
Limitations:
Le benchmark JailbreakQR peut être relativement limité en termes d'échelle.
Des recherches supplémentaires sont nécessaires sur les différents types d’attaques de jailbreak et les performances de généralisation pour LLM.
Une validation supplémentaire des performances et de la fiabilité du module de vérification des faits est nécessaire.
👍