[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

VerifyBench : une référence systématique pour l'évaluation des vérificateurs de raisonnement dans différents domaines

Created by
  • Haebom

Auteur

Xuzhao Li, Xuchen Li, Shiyu Hu, Yongzhen Guo, Wentao Zhang

Contour

Cet article aborde le problème de la validation des modèles linguistiques à grande échelle (MLH) qui améliorent leurs capacités d'inférence grâce à l'apprentissage par renforcement. La vérification de la cohérence entre les réponses générées par le modèle et les réponses de référence est complexe en raison de la longueur, de la variété et de la nuance des réponses. Les vérificateurs basés sur des règles sont complexes, tandis que des vérificateurs basés sur des modèles sont utilisés, mais les vérificateurs spécialisés manquent de flexibilité et les évaluateurs LLM généraux manquent de cohérence. Les recherches existantes se sont concentrées sur la création de vérificateurs plus performants, mais l'absence d'évaluation comparative inter-domaines systématique des performances de différents types de vérificateurs limite le développement fiable de l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Pour remédier à ce problème, cet article propose VerifyBench, un benchmark inter-domaines complet pour l'évaluation systématique des vérificateurs. Il comprend 4 000 questions de niveau expert couvrant les mathématiques, la physique, la chimie et la biologie, ainsi que des réponses de référence et diverses réponses pour chaque question. La fiabilité de l'évaluation est assurée par un processus d'annotation rigoureux mené par une équipe multidisciplinaire d'experts. Nous avons conçu un cadre expérimental quadridimensionnel pour comparer de manière exhaustive les limites de performance des vérificateurs spécialisés et des LLM généraux dans des conditions combinées de réponses extraites et de réponses complètes, et de sorties courtes et de sorties longues. Les résultats de l'évaluation révèlent des compromis fondamentaux entre les vérificateurs : le vérificateur spécialisé atteint une grande précision, mais souffre d'un faible rappel, tandis que le modèle général présente une plus grande exhaustivité, mais souffre d'une précision instable. Plus important encore, nous avons constaté la grande sensibilité du vérificateur à la structure d'entrée et les limites inhérentes à la généralisation inter-domaines, ce qui fournit des informations importantes sur les goulots d'étranglement des technologies de vérification actuelles.

Takeaways, Limitations

Takeaways: Nous avons établi une base pour comparer et évaluer systématiquement les performances des vérificateurs LLM grâce au benchmark VerifyBench couvrant divers domaines. En révélant clairement les différences de performances et les limites des vérificateurs spécialisés et des vérificateurs LLM généraux, nous avons suggéré l'orientation future du développement des vérificateurs LLM. Nous avons souligné l'importance de la généralisation entre les structures d'entrée et les domaines, suggérant ainsi l'orientation des recherches futures.
Limitations: VerifyBench comprend 4 000 questions, mais son exhaustivité doit être améliorée en incluant davantage de types de questions et de réponses. Des recherches supplémentaires sont nécessaires pour minimiser la subjectivité des évaluations d'experts utilisées dans le benchmark actuel. Bien que des limites à la généralisation inter-domaines aient été révélées, aucune solution spécifique n'a été proposée pour les surmonter.
👍