DisastIR 是一个灾害管理专用信息检索评估基准。与现有的通用或特定领域信息检索基准(例如医疗保健、金融)不同,它的开发旨在应对灾害管理场景中独特的语言复杂性和多样化的信息需求。它涵盖 9,600 个不同的用户查询和超过 130 万个带标签的查询短语对,可处理 48 个检索任务,这些任务源自六种搜索意图和八个一般灾害类别(包括 301 个特定事件类型)。对 30 个最先进的检索模型的评估显示,不同任务之间的性能差异显著,没有一个模型在所有任务中都表现出色。通用领域和灾害管理专用任务之间的性能差距也很大,这凸显了灾害管理专用基准对于选择有效的 IR 模型以支持灾害管理决策的重要性。源代码和 DisastIR 可在 GitHub 上获取。