Este artículo presenta MoNaCo, un novedoso benchmark para evaluar la capacidad de búsqueda de información de agentes automatizados basados en modelos de lenguaje a gran escala (LLM). A diferencia de los benchmarks de control de calidad existentes, MoNaCo consta de 1315 preguntas en lenguaje natural que requieren mucho tiempo y decenas o cientos de pasos intermedios para los humanos. MoNaCo se construye mediante un flujo de anotación descompuesto que recopila y responde manualmente a un gran número de preguntas del mundo real que requieren mucho tiempo. La evaluación de LLM de vanguardia con MoNaCo revela que sus puntuaciones F1 están limitadas a un máximo del 61,2 % debido a problemas de memoria y alucinaciones, lo que pone de relieve las limitaciones de los agentes basados en LLM para abordar tareas complejas y extensas de búsqueda de información en el mundo real. El benchmark, el código base, las indicaciones y las predicciones del modelo de MoNaCo están disponibles públicamente.