Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge

Created by
  • Haebom

作者

Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jim enez Guti errez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhangi, Jian Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su

概要

本論文は、エージェントがウェブを自律的に探索し、情報を総合して、引用文に裏付けられた包括的な回答を提供する深層研究システムなどのエージェントベースの検索が、Webスケール情報とのユーザー対話方式に重大な変化をもたらしていることを取り上げます。従来の評価ベンチマークと方法論は短い検索期間と静的な回答を想定しているため、エージェントベースの検索の複雑さと開放性が増えています。そこで本論文では、1000時間以上の人材を投入して製作された、リアルタイムWeb検索と広範な情報総合が必要な130の現実的で高品質な長期課題で構成されたMind2Web 2ベンチマークを提示します。時間とともに変化し、複雑な回答を評価する課題に対処するために、ツリー構造のルーブリック設計に基づいて課題別の判断エージェントを構成し、回答の正確性とソース属性を自動的に評価する新しいAgent-as-a-Judgeフレームワークを提案します。 10の最先端のエージェントベースの検索システムと人間のパフォーマンスの包括的な評価と詳細なエラー分析を実行して、将来の開発のための洞察を導きます。最高のパフォーマンスシステムであるOpenAI Deep Researchは、人間の半分の時間で人間のパフォーマンスの50〜70%を達成し、その可能性を示しています。 Mind2Web 2は、次世代エージェントベースの検索システムを開発およびベンチマークするための厳密な基盤を提供します。

Takeaways、Limitations

Takeaways:
リアルタイムWeb検索と情報統合を必要とする長期的な課題のための新しいベンチマークMind2Web 2の提示
時間とともに変化し、複雑な回答を評価するためのAgent-as-a-Judgeフレームワークの提案
OpenAI Deep Researchを含む最先端のエージェントベースの検索システムの性能評価とエラー分析による今後の開発方向の提示
エージェントベースの検索システムの可能性を確認する
Limitations:
Mind2Web 2ベンチマークの規模と多様性に関するさらなる研究が必要
Agent-as-a-Judgeフレームワークの一般化の可能性と限界に関するさらなる研究が必要
評価されたエージェントベースの検索システムの種類と数の制限
人間のパフォーマンスとの比較のための追加のレビューが必要です。 (例:人間評価者の偏りの可能性など)
👍