Sign In

The BrowserGym Ecosystem for Web Agent Research

Created by
  • Haebom
Category
Empty

저자

Thibault Le Sellier De Chezelles, Maxime Gasse, Alexandre Drouin, Massimo Caccia, Leo Boisvert, Megh Thakkar, Tom Marty, Rim Assouel, Sahar Omidi Shayegan, Lawrence Keunho Jang, Xing Han Lu, Ori Yoran, Dehan Kong, Frank F. Xu, Siva Reddy, Quentin Cappart, Graham Neubig, Ruslan Salakhutdinov, Nicolas Chapados, Alexandre Lacoste

개요

BrowserGym 생태계는 웹 에이전트, 특히 자동화 및 대규모 언어 모델(LLM)을 활용하는 에이전트의 효율적인 평가 및 벤치마킹에 대한 증가하는 요구를 해결합니다. 기존의 많은 벤치마크는 단편화되고 평가 방법론이 일관되지 않아 신뢰할 수 있는 비교와 재현 가능한 결과를 얻기 어렵습니다. 본 논문은 기존의 벤치마크를 통합하고 에이전트 생성, 테스트 및 분석을 돕는 보완적 프레임워크인 AgentLab을 포함하는 확장된 BrowserGym 기반 생태계를 제안합니다. 이 생태계는 새로운 벤치마크 통합의 유연성을 제공하는 동시에 일관된 평가와 포괄적인 실험 관리를 보장합니다. 6개의 최첨단 LLM을 6개의 인기 있는 웹 에이전트 벤치마크에서 비교하는 대규모 다중 벤치마크 웹 에이전트 실험을 수행하여 이를 뒷받침합니다. 결과는 Claude-3.5-Sonnet이 거의 모든 벤치마크에서 우수하지만, 시각 관련 작업에서는 GPT-4o가 우수하다는 것을 보여줍니다. 그러나 실제 웹 환경의 복잡성과 현재 모델의 한계로 인해 강력하고 효율적인 웹 에이전트를 구축하는 것은 여전히 상당한 과제임을 강조합니다.

시사점, 한계점

시사점:
BrowserGym 생태계는 웹 에이전트 평가 및 벤치마킹을 위한 표준화된 환경을 제공합니다.
AgentLab은 웹 에이전트 개발 및 분석을 위한 효율적인 도구를 제공합니다.
다양한 LLM의 성능을 비교 분석하여 웹 에이전트 개발 방향을 제시합니다.
Claude-3.5-Sonnet과 GPT-4o의 강점과 약점을 보여주는 실험 결과를 제시합니다.
한계점:
실제 웹 환경의 복잡성을 완벽하게 반영하지 못할 수 있습니다.
현재 모델의 한계로 인해 강력하고 효율적인 웹 에이전트 개발에 어려움이 있습니다.
BrowserGym 생태계에 포함된 벤치마크의 수와 종류가 제한적일 수 있습니다.
👍