Este artículo propone DeepScholar-bench, un novedoso benchmark para evaluar sistemas de síntesis generativa de investigación. Los benchmarks de preguntas y respuestas existentes se centran en respuestas breves y objetivas, y sus conjuntos de datos, seleccionados por expertos, suelen estar desactualizados o ser propensos a la contaminación de datos, lo que no logra capturar adecuadamente la complejidad y la naturaleza evolutiva de las tareas de síntesis de investigación del mundo real. DeepScholar-bench se centra en la tarea de síntesis de investigación del mundo real, extrayendo consultas de los artículos de arXiv más recientes y de alta calidad, y generando secciones de investigación relevantes. Esto implica recuperar, sintetizar y citar investigaciones relevantes. El marco de evaluación evalúa exhaustivamente tres aspectos clave: síntesis de conocimiento, calidad de recuperación y verificabilidad. También desarrollamos DeepScholar-base, un pipeline de referencia implementado eficientemente mediante la API LOTUS, y evaluamos sistemáticamente los sistemas de código abierto existentes, la IA de búsqueda, DeepResearch de OpenAI y DeepScholar-base utilizando el framework DeepScholar-bench. Observamos que DeepScholar-base establece una base sólida que logra un rendimiento competitivo o superior. Esto demuestra que DeepScholar-bench aún no está saturado, ya que ningún sistema supera los 19 puntos en ninguna métrica .