每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

BrowserArena:评估 LLM 代理在现实世界 Web 导航任务中的表现

Created by
  • Haebom

作者

萨格尼克·阿努潘、戴维斯·布朗、李硕、埃里克·黄、哈米德·哈萨尼、奥斯伯特·巴斯塔尼

大纲

LLM 网络代理现在可以探索开放网络并执行任务,但当前的代理评估仅限于沙盒环境或人工任务。本文介绍了 BrowserArena,这是一个实时开放网络代理评估平台,它收集用户提交的任务,进行竞技场式的面对面比较,并利用逐步的用户反馈来识别故障模式。通过收集和分析代理轨迹的逐步注释,我们识别出三种一致的故障模式:解决验证码、移除弹出横幅以及直接导航到 URL。我们构建了一个目标数据集来进一步研究这些任务,并揭示不同语言模型在处理这些故障模式时的不同之处。例如,o4-mini 比其他模型使用了更多样化的解决验证码策略,而 DeepSeek-R1 在关闭弹出横幅时会持续误导用户。这些发现揭示了当前网络代理的多样性和脆弱性。此外,我们的基准测试方法提供了一种大规模的方法来评估和理解网络代理的故障模式。

Takeaways,Limitations

Takeaways:
我们提出了 BrowserArena,一个用于在实时开放的网络环境中评估 LLM 网络代理性能的平台,可以进行真实的评估。
系统地分析代理故障模式并识别关键问题,例如解决验证码、删除弹出横幅和直接导航到 URL。
它通过揭示各种语言模型处理故障模式的差异来帮助理解每个模型的特点。
我们提出了一种通过基准测试方法对 Web 代理的故障模式进行大规模评估和理解的方法。
Limitations:
在应对实际网络环境的无限多样性和变化方面存在局限性。
特定故障模式的数据集组成中存在潜在偏差。
用户反馈中的主观性和潜在偏见。
仅测试了有限数量的语言模型。
👍