본 논문은 과학 문헌 질의응답을 위한 두 단계 검색 증강 생성형 대형 언어 모델(RAG-LLM) 시스템 내 reranker 평가를 위한 새로운 벤치마크, SciRerankBench를 제시합니다. 과학 분야에서 용어의 미묘한 차이가 답변의 정확성에 큰 영향을 미치므로, reranker의 역할이 중요하다고 강조합니다. SciRerankBench는 다섯 가지 과학 분야를 아우르며, 잡음에 대한 강인성, 관련성 모호성 해소, 사실적 일관성 측면에서 reranker 성능을 엄격하게 평가하기 위해 세 가지 유형(Noisy Contexts, Semantically Similar but Logically Irrelevant Contexts, Counterfactual Contexts)의 질문-맥락-답변(Q-C-A) 쌍을 개발했습니다. 13개의 reranker와 5개의 LLM 계열에 대한 체계적인 평가를 통해 각 reranker의 강점과 한계에 대한 통찰력을 제공하며, SciRerankBench가 RAG-LLM 내 reranker 평가를 위한 최초의 벤치마크임을 강조합니다.