본 논문은 LLM 웹 에이전트의 성능 평가를 위한 플랫폼인 BrowserArena를 소개합니다. 이 플랫폼은 실제 웹 환경에서 사용자가 제출한 작업을 수행하고, 에이전트 간의 경쟁(head-to-head) 비교를 진행하며, 단계별 사용자 피드백을 통해 실패 양상을 파악합니다. BrowserArena를 통해 수집된 데이터를 분석하여 캡차 해결, 팝업 배너 제거, URL 직접 이동과 같은 일관된 실패 요소를 확인했습니다. 또한, 이러한 문제에 대한 특정 데이터 세트를 구성하여 다양한 언어 모델의 동작 방식을 연구했습니다. 예를 들어, o4-mini는 캡차 해결을 위한 다양한 전략을 사용하며, DeepSeek-R1은 캡차 해결에 대해 일관성 없는 정보를 제공하는 것을 확인했습니다.