HawkBench 是一个用于评估 RAG 系统适应性恢复能力的全新基准测试,旨在满足现实世界信息检索场景中用户动态且多样化的需求。与专注于特定任务类型(主要为事实类问题)和多样化知识库的现有基准测试不同,HawkBench 系统地对各种问题类型进行了分类,包括事实类问题和基于证据的问题。它整合了所有任务类型的多领域语料库,以减轻语料库偏差,并提供严格的注释以进行高质量评估。它包含 1,600 个高质量测试样本,均匀分布在各个领域和任务类型中。我们评估了具有代表性的 RAG 方法,以分析其在答案质量和响应延迟方面的性能,强调了需要整合决策、查询解释和整体知识理解的动态任务策略来提升 RAG 泛化能力。