Cet article aborde le problème de la validation des modèles linguistiques à grande échelle (MLH) qui améliorent leurs capacités d'inférence grâce à l'apprentissage par renforcement. La vérification de la cohérence entre les réponses générées par le modèle et les réponses de référence est complexe en raison de la longueur, de la variété et de la nuance des réponses. Les vérificateurs basés sur des règles sont complexes, tandis que des vérificateurs basés sur des modèles sont utilisés, mais les vérificateurs spécialisés manquent de flexibilité et les évaluateurs LLM généraux manquent de cohérence. Les recherches existantes se sont concentrées sur la création de vérificateurs plus performants, mais l'absence d'évaluation comparative inter-domaines systématique des performances de différents types de vérificateurs limite le développement fiable de l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Pour remédier à ce problème, cet article propose VerifyBench, un benchmark inter-domaines complet pour l'évaluation systématique des vérificateurs. Il comprend 4 000 questions de niveau expert couvrant les mathématiques, la physique, la chimie et la biologie, ainsi que des réponses de référence et diverses réponses pour chaque question. La fiabilité de l'évaluation est assurée par un processus d'annotation rigoureux mené par une équipe multidisciplinaire d'experts. Nous avons conçu un cadre expérimental quadridimensionnel pour comparer de manière exhaustive les limites de performance des vérificateurs spécialisés et des LLM généraux dans des conditions combinées de réponses extraites et de réponses complètes, et de sorties courtes et de sorties longues. Les résultats de l'évaluation révèlent des compromis fondamentaux entre les vérificateurs : le vérificateur spécialisé atteint une grande précision, mais souffre d'un faible rappel, tandis que le modèle général présente une plus grande exhaustivité, mais souffre d'une précision instable. Plus important encore, nous avons constaté la grande sensibilité du vérificateur à la structure d'entrée et les limites inhérentes à la généralisation inter-domaines, ce qui fournit des informations importantes sur les goulots d'étranglement des technologies de vérification actuelles.