人工评估文本摘要一直以来都是一个难题。金字塔协议(Pyramid protocol)已被广泛应用,该协议将参考摘要划分为子单元,并确定系统摘要是否包含相关内容。然而,该协议缺乏系统性定义和子单元粒度。本研究提出了 QAPyramid 来解决这个问题,它基于 QA-SRL 框架将每个参考摘要分解为更细粒度的问答 (QA) 对。我们收集了 CNN/DM 参考摘要的 QA-SRL 注释,并评估了十个摘要系统,最终获得了 8,900 个 QA 级注释。与金字塔相比,QAPyramid 提供了更系统、更细粒度的内容选择评估,同时无需专家注释即可保持较高的注释间一致性。此外,我们实现了评估流程的自动化,并提出了一个与其他广泛使用的指标相比与 QAPyramid 相关性更强的指标。