ResearcherBench: Evaluating Deep AI Research Systems on the Frontiers of Scientific Inquiry
Created by
Haebom
作者
Tianze Xu, Pengrui Lu, Lyumanshan Ye, Xiangkun Hu, Pengfei Liu
概要
この論文は、既存のディープラーニングベースの研究システム評価がWeb検索とレポート生成にのみ焦点を当てており、科学研究の革新的な洞察を見つける能力を見落としていることを指摘し、それを解決するための新しいベンチマークであるResearcherBenchを提示します。 ResearcherBenchは、実際の科学的シナリオから導き出された65の研究質問(35のAIトピック、技術的詳細、文献レビュー、オープンアドバイスなど3つのタイプ)に基づいて、専門家の評価基準を活用した洞察評価と引用精度と範囲測定によるリアルな評価という二重評価方式を使用します。いくつかの主要な商用DARSと基準システムを評価した結果、OpenAI Deep ResearchとGemini Deep Researchは、特にオープンなアドバイザリーの質問で他のシステムよりも優れたパフォーマンスを示しました。 ResearcherBenchはオープンソースとして公開され、次世代AI研究助手者開発のための標準プラットフォームを提供し、新しい科学的コラボレーションパターンに対するAI研究評価の新しい視点を提示したいと思います。