Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DeepScholar-Bench: A Live Benchmark and Automated Evaluation for Generative Research Synthesis

Created by
  • Haebom

作者

Liana Patel, Negar Arabzadeh, Harshit Gupta, Ankita Sundar, Ion Stoica, Matei Zaharia, Carlos Guestrin

概要

本稿では、生成的研究総合システムを評価するための新しいベンチマークであるDeepScholar-benchを提案します。従来の質疑応答ベンチマークは、単答型の事実的応答に焦点を当てており、専門家がキュレーションしたデータセットは時代に遅れたり、データ汚染の危険があり、実際の研究総合課題の複雑性と変化する特性をきちんと捉えられません。 DeepScholar-benchは、最新の高品質arXiv論文から問合せを抽出し、論文の関連研究セクションを作成する実際の研究総合課題に焦点を当てています。これには、関連研究の検索、総合、引用が含まれます。評価フレームワークは、知識総合、検索品質、検証可能性の3つの主な側面を包括的に評価します。また、LOTUS APIを使用して効率的に実装されたリファレンスパイプラインであるDeepScholar-baseを開発し、DeepScholar-benchフレームワークを使用して、既存のオープンソースシステム、検索AI、OpenAIのDeepResearch、およびDeepScholar-baseを体系的に評価します。 DeepScholar-baseが競争力のあるパフォーマンスまたはそれ以上を達成する強力なベースラインを設定することを発見しました。すべての指標に$19 $を超えるシステムがないという点で、DeepScholar-benchがまだ飽和していないことを示しています。

Takeaways、Limitations

Takeaways:
生成的研究総合システムを評価するための新しいベンチマークDeepScholar-benchの提示
実際の研究課題を反映したベンチマーク設計により、現実的な評価が可能
DeepScholar-baseという強力な基準システムを提示
生成的研究総合分野の発展のための重要な基準の提示
オープンソースコード開示による研究拡張性の向上
Limitations:
DeepScholar-benchのスコアがまだ低く(最高19%未満)、改善の余地が大きい
ArXiv論文に限定されたデータセットによる一般化の可能性に関するさらなる研究が必要
評価指標の総合的な性質にもかかわらず、他の側面の評価を追加する必要性の存在
LOTUS API依存性によるアクセシビリティの制約の可能性
👍