Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DeepScholar-Bench: Un punto de referencia en vivo y una evaluación automatizada para la síntesis de investigación generativa

Created by
  • Haebom

Autor

Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin

Describir

Este artículo propone DeepScholar-bench, un novedoso benchmark para evaluar sistemas de síntesis generativa de investigación. Los benchmarks de preguntas y respuestas existentes se centran en respuestas breves y objetivas, y sus conjuntos de datos, seleccionados por expertos, suelen estar desactualizados o ser propensos a la contaminación de datos, lo que no logra capturar adecuadamente la complejidad y la naturaleza evolutiva de las tareas de síntesis de investigación del mundo real. DeepScholar-bench se centra en la tarea de síntesis de investigación del mundo real, extrayendo consultas de los artículos de arXiv más recientes y de alta calidad, y generando secciones de investigación relevantes. Esto implica recuperar, sintetizar y citar investigaciones relevantes. El marco de evaluación evalúa exhaustivamente tres aspectos clave: síntesis de conocimiento, calidad de recuperación y verificabilidad. También desarrollamos DeepScholar-base, un pipeline de referencia implementado eficientemente mediante la API LOTUS, y evaluamos sistemáticamente los sistemas de código abierto existentes, la IA de búsqueda, DeepResearch de OpenAI y DeepScholar-base utilizando el framework DeepScholar-bench. Observamos que DeepScholar-base establece una base sólida que logra un rendimiento competitivo o superior. Esto demuestra que DeepScholar-bench aún no está saturado, ya que ningún sistema supera los 19 puntos en ninguna métrica .

Takeaways, Limitations

Takeaways:
Se presenta DeepScholar-bench, un nuevo referente para evaluar sistemas de investigación generativa.
Un diseño de referencia que refleje las tareas de investigación reales permite una evaluación realista.
Presentamos un potente sistema de referencia llamado DeepScholar-base
Proporcionar criterios importantes para el desarrollo del campo de la investigación generativa
Aumentar la escalabilidad de la investigación mediante la divulgación de código fuente abierto
Limitations:
La puntuación de DeepScholar-bench todavía es baja (menos del 19% de las mejores), lo que deja un margen significativo para mejorar.
Se necesita más investigación sobre la generalización con conjuntos de datos limitados a artículos de arXiv.
A pesar del carácter exhaustivo de los indicadores de evaluación, es necesario realizar una evaluación adicional de otros aspectos.
Posibles limitaciones de accesibilidad debido a la dependencia de la API de LOTUS
👍