Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Tableau de classement de robustesse LLM v1 – Rapport technique

Created by
  • Haebom

Auteur

Pierre Peigne -Lefebvre, Quentin Feuillade-Montixi, Tom David, Nicolas Miailhe

Contour

PRISM Eval a présenté son classement de robustesse pour les LLM et a soumis un rapport technique au Paris AI Action Summit. Ce rapport présente l'outil d'élicitation comportementale (BET) de PRISM Eval, un système d'IA qui effectue des tests contradictoires automatisés via une optimisation contradictoire dynamique. BET a atteint un taux de réussite d'attaque (ASR) de 100 % sur 37 des 41 LLM de pointe. Au-delà des simples évaluations réussite/échec, nous avons proposé une mesure de robustesse précise qui estime le nombre moyen de tentatives nécessaires pour induire un comportement nuisible, démontrant une différence de difficulté d'attaque de plus de 300 fois entre les modèles. Nous avons également introduit une analyse de vulnérabilité de base afin d'identifier les techniques de jailbreak les plus efficaces pour des catégories de risques spécifiques. Cette évaluation collaborative avec des tiers de confiance du AI Safety Network offre une voie pratique vers une évaluation de robustesse distribuée au sein de la communauté.

Takeaways, Limitations

Takeaways:
Nous démontrons qu’un système de test contradictoire automatisé (BET) basé sur une optimisation contradictoire dynamique peut évaluer efficacement la vulnérabilité du LLM.
Nous mesurons quantitativement les différences significatives dans le niveau de robustesse du LLM entre les modèles et présentons des indices de robustesse détaillés.
En analysant les techniques de jailbreak efficaces pour des catégories de risques spécifiques, nous fournissons des orientations spécifiques pour le développement de LLM et l'amélioration de la sécurité.
Nous contribuons à garantir la sécurité des LLM communautaires en proposant un modèle collaboratif pour l'évaluation de la robustesse distribuée.
Limitations:
Seuls 41 LLM ont été évalués à ce jour, et davantage de modèles doivent être évalués.
Une analyse plus approfondie est nécessaire pour les quatre LLM où le taux de réussite des attaques de BET n'a pas atteint 100 %.
Des recherches supplémentaires sont nécessaires sur la généralisabilité et les limites des mesures de robustesse granulaire proposées.
L'efficacité d'une technique de jailbreak particulière peut varier en fonction de la structure et de la conception spécifiques du LLM, nécessitant une analyse plus complète.
👍