본 논문은 생성적 연구 종합(generative research synthesis) 시스템을 평가하기 위한 새로운 벤치마크인 DeepScholar-bench를 제안합니다. 기존의 질의응답 벤치마크는 단답형 사실적 응답에 초점을 맞추고, 전문가가 큐레이션한 데이터셋은 시대에 뒤떨어지거나 데이터 오염 위험이 있어 실제 연구 종합 과제의 복잡성과 변화하는 특성을 제대로 포착하지 못합니다. DeepScholar-bench는 최신의 고품질 arXiv 논문에서 질의를 추출하여, 논문의 관련 연구 섹션을 생성하는 실제 연구 종합 과제에 집중합니다. 이는 관련 연구를 검색, 종합하고 인용하는 것을 포함합니다. 평가 프레임워크는 지식 종합, 검색 품질, 검증 가능성의 세 가지 주요 측면을 종합적으로 평가합니다. 또한 LOTUS API를 사용하여 효율적으로 구현된 참조 파이프라인인 DeepScholar-base를 개발하고, DeepScholar-bench 프레임워크를 사용하여 기존 오픈소스 시스템, 검색 AI, OpenAI의 DeepResearch 및 DeepScholar-base를 체계적으로 평가합니다. DeepScholar-base가 경쟁력 있는 성능 또는 그 이상을 달성하는 강력한 기준선을 설정한다는 것을 발견했습니다. 모든 지표에서 $19$를 초과하는 시스템이 없다는 점에서 DeepScholar-bench가 아직 포화되지 않았음을 보여줍니다.