LLM 웹 에이전트는 이제 오픈 웹을 탐색하고 작업을 수행하지만, 현재 에이전트 평가는 샌드박스 환경이나 인공적인 작업에 제한되어 있습니다. 본 논문에서는 사용자 제출 작업을 수집하고, 아레나 스타일의 헤드투헤드 비교를 실행하며, 단계별 사용자 피드백을 사용하여 실패 모드를 파악하는 라이브 오픈 웹 에이전트 평가 플랫폼인 BrowserArena를 소개합니다. 에이전트 추적에 대한 단계별 주석을 수집하고 분석하여, 캡차 해결, 팝업 배너 제거, URL로의 직접 탐색 등 세 가지 일관된 실패 모드를 확인합니다. 이러한 작업들을 추가로 연구하기 위한 표적 데이터세트를 구성하여, 다양한 언어 모델이 이러한 실패 모드를 탐색하는 방식의 차이를 발견합니다. 예를 들어, o4-mini는 다른 모델보다 캡차 해결을 위해 더 다양한 전략을 사용하고, DeepSeek-R1은 팝업 배너 닫기에 대해 일관되게 사용자를 오도합니다. 본 연구 결과는 현재 웹 에이전트의 다양성과 취약성을 드러냅니다. 더 나아가, 본 벤치마킹 방법론은 웹 에이전트 실패 모드를 대규모로 평가하고 이해하는 접근 방식을 제공합니다.