Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BrowserArena: Evaluating LLM Agents on Real-World Web Navigation Tasks

Created by
  • Haebom

저자

Sagnik Anupam, Davis Brown, Shuo Li, Eric Wong, Hamed Hassani, Osbert Bastani

개요

LLM 웹 에이전트는 이제 오픈 웹을 탐색하고 작업을 수행하지만, 현재 에이전트 평가는 샌드박스 환경이나 인공적인 작업에 제한되어 있습니다. 본 논문에서는 사용자 제출 작업을 수집하고, 아레나 스타일의 헤드투헤드 비교를 실행하며, 단계별 사용자 피드백을 사용하여 실패 모드를 파악하는 라이브 오픈 웹 에이전트 평가 플랫폼인 BrowserArena를 소개합니다. 에이전트 추적에 대한 단계별 주석을 수집하고 분석하여, 캡차 해결, 팝업 배너 제거, URL로의 직접 탐색 등 세 가지 일관된 실패 모드를 확인합니다. 이러한 작업들을 추가로 연구하기 위한 표적 데이터세트를 구성하여, 다양한 언어 모델이 이러한 실패 모드를 탐색하는 방식의 차이를 발견합니다. 예를 들어, o4-mini는 다른 모델보다 캡차 해결을 위해 더 다양한 전략을 사용하고, DeepSeek-R1은 팝업 배너 닫기에 대해 일관되게 사용자를 오도합니다. 본 연구 결과는 현재 웹 에이전트의 다양성과 취약성을 드러냅니다. 더 나아가, 본 벤치마킹 방법론은 웹 에이전트 실패 모드를 대규모로 평가하고 이해하는 접근 방식을 제공합니다.

시사점, 한계점

시사점:
라이브 오픈 웹 환경에서 LLM 웹 에이전트의 성능을 평가하는 플랫폼인 BrowserArena를 제시하여 현실적인 평가를 가능하게 함.
에이전트의 실패 모드를 체계적으로 분석하고, 캡차 해결, 팝업 배너 제거, URL 직접 탐색과 같은 주요 문제점을 파악.
다양한 언어 모델의 실패 모드 대처 방식의 차이점을 밝혀, 모델별 특성을 이해하는데 기여.
벤치마킹 방법론을 통해 웹 에이전트의 실패 모드를 대규모로 평가하고 이해하는 접근 방식을 제시.
한계점:
실제 웹 환경의 무한한 다양성과 변화에 대한 대응의 한계.
특정 실패 모드에 대한 데이터셋 구성의 편향성 가능성.
사용자 피드백의 주관성 및 편향성 가능성.
제한된 수의 언어 모델만 테스트.
👍