Cet article présente MoNaCo, un nouveau benchmark permettant d'évaluer les capacités de recherche d'informations des agents automatisés basés sur des modèles de langage à grande échelle (MLL). Contrairement aux benchmarks d'assurance qualité existants, MoNaCo se compose de 1 315 questions chronophages en langage naturel nécessitant des dizaines, voire des centaines d'étapes intermédiaires pour les humains. MoNaCo repose sur un pipeline d'annotation décomposé qui collecte et répond manuellement à un grand nombre de questions chronophages du monde réel. L'évaluation des LLM de pointe avec MoNaCo révèle que leurs scores F1 sont limités à un maximum de 61,2 % en raison de problèmes de rappel et d'hallucinations, soulignant les limites des agents basés sur les LLM pour traiter des tâches complexes et étendues de recherche d'informations du monde réel. Le benchmark, la base de code, les invites et les prédictions du modèle de MoNaCo sont accessibles au public.