Bài báo này trình bày MoNaCo, một chuẩn mực mới để đánh giá khả năng tìm kiếm thông tin của các tác nhân tự động dựa trên các mô hình ngôn ngữ quy mô lớn (LLM). Không giống như các chuẩn mực QA hiện có, MoNaCo bao gồm 1.315 câu hỏi ngôn ngữ tự nhiên tốn thời gian, đòi hỏi hàng chục hoặc hàng trăm bước trung gian đối với con người. MoNaCo được xây dựng thông qua một quy trình chú thích phân rã, thu thập và trả lời thủ công một lượng lớn các câu hỏi thực tế tốn thời gian. Việc đánh giá các LLM hiện đại với MoNaCo cho thấy điểm F1 của chúng bị giới hạn ở mức tối đa 61,2% do các vấn đề về hồi tưởng và ảo giác, làm nổi bật những hạn chế của các tác nhân dựa trên LLM trong việc giải quyết các nhiệm vụ tìm kiếm thông tin thực tế phức tạp và rộng lớn. Chuẩn mực, cơ sở mã, lời nhắc và dự đoán mô hình của MoNaCo đều được công khai.