Cet article propose DeepScholar-bench, un nouveau référentiel pour l'évaluation des systèmes de synthèse de recherche générative. Les référentiels de questions-réponses existants se concentrent sur des réponses brèves et factuelles, et leurs ensembles de données, élaborés par des experts, sont souvent obsolètes ou sujets à contamination, ne parvenant pas à saisir adéquatement la complexité et l'évolution des tâches de synthèse de recherche concrètes. DeepScholar-bench se concentre sur la synthèse de recherche concrète, consistant à extraire des requêtes des articles arXiv les plus récents et de haute qualité, et à générer des sections de recherche pertinentes. Cela implique la récupération, la synthèse et la citation de recherches pertinentes. Le cadre d'évaluation évalue de manière exhaustive trois aspects clés : la synthèse des connaissances, la qualité de la récupération et la vérifiabilité. Nous développons également DeepScholar-base, un pipeline de référence implémenté efficacement grâce à l'API LOTUS, et évaluons systématiquement les systèmes open source existants, l'IA de recherche, DeepResearch d'OpenAI et DeepScholar-base à l'aide du cadre DeepScholar-bench. Nous constatons que DeepScholar-base établit une base de référence robuste permettant d'atteindre des performances compétitives, voire supérieures. Cela montre que DeepScholar-bench n'est pas encore saturé, car aucun système ne dépasse 19 $ pour aucune mesure .