JADES (Jailbreak Assessment via Decompositional Scoring) est un cadre d'évaluation polyvalent de la réussite du jailbreak, conçu pour améliorer les méthodes d'évaluation actuelles, imprécises et subjectives. Il décompose les questions problématiques en sous-questions pondérées et note chaque sous-réponse pour parvenir à une décision finale. De plus, il peut éventuellement inclure un module de vérification des faits pour améliorer la détection des hallucinations. Dans cet article, nous présentons un nouveau benchmark, JailbreakQR, composé de 400 paires de réponses-invites de jailbreak, et validons JADES par rapport à celui-ci. JADES atteint un taux de concordance de 98,5 % avec les évaluateurs humains, démontrant une amélioration de plus de 9 % par rapport aux méthodes existantes et exposant le problème de surestimation des méthodes d'évaluation actuelles.