Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks

Created by
  • Haebom

저자

Sagnik Anupam, Davis Brown, Shuo Li, Eric Wong, Hamed Hassani, Osbert Bastani

개요

본 논문은 LLM 웹 에이전트의 성능 평가를 위한 플랫폼인 BrowserArena를 소개합니다. 이 플랫폼은 실제 웹 환경에서 사용자가 제출한 작업을 수행하고, 에이전트 간의 경쟁(head-to-head) 비교를 진행하며, 단계별 사용자 피드백을 통해 실패 양상을 파악합니다. BrowserArena를 통해 수집된 데이터를 분석하여 캡차 해결, 팝업 배너 제거, URL 직접 이동과 같은 일관된 실패 요소를 확인했습니다. 또한, 이러한 문제에 대한 특정 데이터 세트를 구성하여 다양한 언어 모델의 동작 방식을 연구했습니다. 예를 들어, o4-mini는 캡차 해결을 위한 다양한 전략을 사용하며, DeepSeek-R1은 캡차 해결에 대해 일관성 없는 정보를 제공하는 것을 확인했습니다.

시사점, 한계점

시사점:
실제 웹 환경에서 LLM 웹 에이전트의 성능을 평가할 수 있는 플랫폼 구축.
에이전트의 실패 양상(캡차 해결, 팝업 배너 제거, URL 직접 이동) 식별.
특정 실패 요소에 대한 언어 모델별 전략 및 취약점 분석.
웹 에이전트의 강점과 약점을 파악하고 개선 방향을 제시.
한계점:
평가 대상 및 작업의 제한.
사용자 피드백의 주관성.
특정 실패 요소를 중심으로 분석, 다른 실패 요인에 대한 연구 부족 가능성.
웹 환경의 변화에 따른 플랫폼 및 평가 결과의 유효성 유지 문제.
👍