本文介绍了 SciRerankBench,这是一个用于评估两阶段检索增强生成大型语言模型 (RAG-LLM) 系统内用于科学文献问答的重排序器的新基准测试。它强调了重排序器在科学领域中的关键作用,因为术语的细微差异可能会显著影响答案的准确性。SciRerankBench 涵盖五个科学领域,并开发了三种类型的问题-上下文-答案 (QCA) 对:噪声上下文、语义相似但逻辑不相关的上下文以及反事实上下文,以严格评估重排序器在噪声鲁棒性、相关性消歧和事实一致性方面的性能。通过对 13 个重排序器和五个 LLM 系列进行系统评估,我们深入了解了每个重排序器的优势和局限性,并强调 SciRerankBench 是第一个用于评估 RAG-LLM 内重排序器的基准测试。