LLM 网络代理现在可以探索开放网络并执行任务,但当前的代理评估仅限于沙盒环境或人工任务。本文介绍了 BrowserArena,这是一个实时开放网络代理评估平台,它收集用户提交的任务,进行竞技场式的面对面比较,并利用逐步的用户反馈来识别故障模式。通过收集和分析代理轨迹的逐步注释,我们识别出三种一致的故障模式:解决验证码、移除弹出横幅以及直接导航到 URL。我们构建了一个目标数据集来进一步研究这些任务,并揭示不同语言模型在处理这些故障模式时的不同之处。例如,o4-mini 比其他模型使用了更多样化的解决验证码策略,而 DeepSeek-R1 在关闭弹出横幅时会持续误导用户。这些发现揭示了当前网络代理的多样性和脆弱性。此外,我们的基准测试方法提供了一种大规模的方法来评估和理解网络代理的故障模式。