PRISM Eval a présenté son classement de robustesse pour les LLM et a soumis un rapport technique au Paris AI Action Summit. Ce rapport présente l'outil d'élicitation comportementale (BET) de PRISM Eval, un système d'IA qui effectue des tests contradictoires automatisés via une optimisation contradictoire dynamique. BET a atteint un taux de réussite d'attaque (ASR) de 100 % sur 37 des 41 LLM de pointe. Au-delà des simples évaluations réussite/échec, nous avons proposé une mesure de robustesse précise qui estime le nombre moyen de tentatives nécessaires pour induire un comportement nuisible, démontrant une différence de difficulté d'attaque de plus de 300 fois entre les modèles. Nous avons également introduit une analyse de vulnérabilité de base afin d'identifier les techniques de jailbreak les plus efficaces pour des catégories de risques spécifiques. Cette évaluation collaborative avec des tiers de confiance du AI Safety Network offre une voie pratique vers une évaluation de robustesse distribuée au sein de la communauté.