Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Sc​​ientific Workflows

Created by
  • Haebom

作者

キシシサン、朱美嘉劉、チャンマ、ジチェン・ディン、ファンジ・スー、チャンギュイ・イン、ヘイテン・シャオ、ゼニウ・ウ、カンジ・チェン、シャオヤン・リュウ、Jianing Wang、Qintong Li、Xiangru Tang、Tianbao Xie、Xiachong Feng Qi、Lingpeng Kong、Zhiyong Wu

概要

本論文は、科学的発見を加速するために、さまざまなインターフェースを介して自律的に対話することができるコンピュータ使用エージェントを中心に研究します。そのために、科学的ワークフローを統合した現実的なマルチドメイン環境であるScienceBoardを紹介します。 ScienceBoardには、生化学、天文学、地理情報学など、さまざまな分野で169の高品質の実際の作業で構成されたベンチマークが含まれています。 GPT-4o、Claude 3.7、UI-TARSなどの最先端のバックボーンを使用したエージェント評価の結果、複雑なワークフローで科学者を安定的にサポートすることはまだ不十分であり、全体的な成功率は15%に過ぎないことを示しています。しかし、これらの分析は、エージェントの限界を解決し、より効果的な設計原則を提示することで、今後さらに能力のある科学的発見エージェントの構築に貢献できると期待しています。コード、環境、ベンチマークはhttps://qiushisun.github.io/ScienceBoard-Home/で確認できます。

Takeaways、Limitations

Takeaways:
さまざまな科学分野にわたって実際の科学的ワークフローを自動化するのに役立つ現実的なベンチマーク環境であるScienceBoardを提供します。
最先端のLLMエージェントの性能と限界を実際の科学的作業を通して評価し、今後の研究方向を提示します。
科学的発見のためのLLMベースのエージェント開発の現状と将来の方向性に関する貴重な洞察を提供します。
Limitations:
現在のLLMベースのエージェントは、複雑な科学的ワークフローで15%の低い成功率を示し、信頼できるサポートを提供するのにまだ不十分です。
ScienceBoardベンチマークの範囲は広いですが、すべての科学分野のワークフローを完全に網羅するわけではありません。
エージェントのパフォーマンスを向上させるためには、さらなる研究と開発が必要です。
👍