Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MoNaCo: More Natural and Complex Questions for Reasoning Across Dozens of Documents

Created by
  • Haebom

作者

Tomer Wolfson, Harsh Trivedi, Mor Geva, Yoav Goldberg, Dan Roth, Tushar Khot, Ashish Sabharwal, Reut Tsarfaty

概要

本稿では、大規模言語モデル(LLM)ベースの自動化エージェントの情報探索能力を評価するための新しいベンチマークであるMoNaCoを紹介します。従来のQAベンチマークとは異なり、MoNaCoは人間に数十または数百の中間段階を必要とする時間のかかる自然言語の質問1315で構成されています。 MoNaCoは、実際の世界の時間のかかる質問を大規模に収集し、手動で回答する分解された注釈パイプラインを介して構築されました。最先端のLLMをMoNaCoで評価した結果、再現率と幻覚により最大61.2%のF1スコアにとどまり、実際の世界の複雑で広範な情報探索課題を処理する上でLLMベースのエージェントの限界を強調します。 MoNaCoのベンチマーク、コードベース、プロンプト、モデル予測は公に提供されています。

Takeaways、Limitations

Takeaways:
既存のQAベンチマークの限界を克服する新しいベンチマークMoNaCo提示。
実世界の複雑で時間のかかる情報探索の課題に対するLLMベースのエージェントの性能評価を提供
LLMベースのエージェントの再現率と幻覚の問題を明らかにする。
LLMエージェントの発展を追跡するための効果的なリソース提供。
MoNaCoベンチマーク、コード、プロンプト、モデル予測などの開示による研究の活性化。
Limitations:
MoNaCoの質問は、実際の世界のあらゆるタイプの時間のかかる情報探索の課題を完全に表していない可能性があります。
手動注釈に依存する方法により、ベンチマーク拡張に制約がある可能性があります。
評価指標であるF1スコアだけでは、LLMエージェントのすべての側面を包括的に評価できない可能性があります。
👍