Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

MoNaCo : des questions plus naturelles et plus complexes pour raisonner sur des dizaines de documents

Created by
  • Haebom

Auteur

Tomer Wolfson, Harsh Trivedi, Mor Geva, Yoav Goldberg, Dan Roth, Tushar Khot, Ashish Sabrwal, Reut Tsarfaty

Contour

Cet article présente MoNaCo, un nouveau benchmark permettant d'évaluer les capacités de recherche d'informations des agents automatisés basés sur des modèles de langage à grande échelle (MLL). Contrairement aux benchmarks d'assurance qualité existants, MoNaCo se compose de 1 315 questions chronophages en langage naturel nécessitant des dizaines, voire des centaines d'étapes intermédiaires pour les humains. MoNaCo repose sur un pipeline d'annotation décomposé qui collecte et répond manuellement à un grand nombre de questions chronophages du monde réel. L'évaluation des LLM de pointe avec MoNaCo révèle que leurs scores F1 sont limités à un maximum de 61,2 % en raison de problèmes de rappel et d'hallucinations, soulignant les limites des agents basés sur les LLM pour traiter des tâches complexes et étendues de recherche d'informations du monde réel. Le benchmark, la base de code, les invites et les prédictions du modèle de MoNaCo sont accessibles au public.

Takeaways, Limitations

Takeaways:
Présentation de MoNaCo, un nouveau benchmark qui surmonte les limites des benchmarks QA existants.
Fournit des évaluations de performance des agents basés sur LLM sur des tâches de recherche d'informations complexes et chronophages dans le monde réel.
Exposer les problèmes de rappel et d’hallucination des agents basés sur LLM.
Fournir une ressource efficace pour suivre le développement des agents LLM.
Permettre la recherche grâce à la publication de benchmarks, de codes, d'invites, de prédictions de modèles MoNaCo, etc.
Limitations:
Les questions de MoNaCo ne représentent peut-être pas parfaitement tous les types de tâches de recherche d’informations chronophages dans le monde réel.
La mise à l’échelle des repères peut être limitée en raison de sa dépendance aux annotations manuelles.
Le score F1 seul, en tant que mesure d’évaluation, peut ne pas évaluer de manière exhaustive tous les aspects d’un agent LLM.
👍