Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DeepScholar-Bench : un benchmark en direct et une évaluation automatisée pour la synthèse de recherche générative

Created by
  • Haebom

Auteur

Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin

Contour

Cet article propose DeepScholar-bench, un nouveau référentiel pour l'évaluation des systèmes de synthèse de recherche générative. Les référentiels de questions-réponses existants se concentrent sur des réponses brèves et factuelles, et leurs ensembles de données, élaborés par des experts, sont souvent obsolètes ou sujets à contamination, ne parvenant pas à saisir adéquatement la complexité et l'évolution des tâches de synthèse de recherche concrètes. DeepScholar-bench se concentre sur la synthèse de recherche concrète, consistant à extraire des requêtes des articles arXiv les plus récents et de haute qualité, et à générer des sections de recherche pertinentes. Cela implique la récupération, la synthèse et la citation de recherches pertinentes. Le cadre d'évaluation évalue de manière exhaustive trois aspects clés : la synthèse des connaissances, la qualité de la récupération et la vérifiabilité. Nous développons également DeepScholar-base, un pipeline de référence implémenté efficacement grâce à l'API LOTUS, et évaluons systématiquement les systèmes open source existants, l'IA de recherche, DeepResearch d'OpenAI et DeepScholar-base à l'aide du cadre DeepScholar-bench. Nous constatons que DeepScholar-base établit une base de référence robuste permettant d'atteindre des performances compétitives, voire supérieures. Cela montre que DeepScholar-bench n'est pas encore saturé, car aucun système ne dépasse 19 $ pour aucune mesure .

Takeaways, Limitations

Takeaways:
DeepScholar-bench, un nouveau benchmark pour l'évaluation des systèmes de recherche générative, est présenté.
La conception de référence qui reflète les tâches de recherche réelles permet une évaluation réaliste.
Présentation d'un système de référence puissant appelé DeepScholar-base
Fournir des critères importants pour le développement du domaine de la recherche générative
Augmenter l'évolutivité de la recherche grâce à la divulgation du code source ouvert
Limitations:
Le score de DeepScholar-bench est encore faible (moins de 19% du meilleur), laissant une marge d'amélioration significative.
Des recherches supplémentaires sont nécessaires sur la généralisabilité avec des ensembles de données limités aux articles arXiv.
Malgré le caractère exhaustif des indicateurs d’évaluation, il est nécessaire de procéder à une évaluation supplémentaire d’autres aspects.
Limitations d'accessibilité possibles en raison de la dépendance à l'API LOTUS
👍