Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

Created by
  • Haebom

저자

Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah

개요

본 논문은 대규모 다중 모달 모델(LMM) 기반의 웹 에이전트 성능 향상을 위해 대규모 다양한 궤적 레벨 데이터셋을 생성하는 방법을 제시합니다. 기존의 오픈소스 LMM 에이전트는 오프라인 평가 벤치마크에서는 성능이 향상되었지만, 현실적인 온라인 환경에서는 여전히 인간 수준의 능력에는 미치지 못하는데, 이는 다양하고 대규모의 궤적 레벨 데이터셋 부족이 주요 원인입니다. 본 논문에서는 94,000개 이상의 성공적인 다중 모달 웹 궤적, 49,000개의 고유 URL, 720,000개의 스크린샷, 3,300만 개의 웹 요소를 포함하는 대규모 데이터셋을 생성하는 확장 가능한 방법을 제시하고, 이를 활용하여 Explorer라는 다중 모달 웹 에이전트를 훈련하여 Mind2Web-Live, Multimodal-Mind2Web, MiniWob++ 등의 벤치마크에서 강력한 성능을 입증합니다. 성공적인 궤적당 평균 비용은 28센트로, 연구자들의 접근성을 높였습니다. 데이터 확장이 웹 에이전트 성능 향상의 주요 동인임을 실험적으로 보여줍니다.

시사점, 한계점

시사점:
대규모 다양한 궤적 레벨 웹 에이전트 데이터셋 생성을 위한 확장 가능한 방법론 제시.
저렴한 비용(성공적인 궤적당 28센트)으로 대규모 데이터셋 생성 가능.
Explorer 에이전트를 통해 다양한 웹 에이전트 벤치마크에서 우수한 성능 입증.
데이터 확장이 웹 에이전트 성능 향상에 중요한 역할을 한다는 것을 실험적으로 증명.
LMM 기반 에이전트 연구의 규모 확장 및 접근성 향상에 기여.
한계점:
생성된 데이터셋의 품질 및 편향에 대한 자세한 분석 부족.
Explorer 에이전트의 일반화 성능에 대한 추가적인 검증 필요.
다양한 웹 환경 및 작업에 대한 범용성 검증 필요.
인간 수준의 성능과의 비교 분석이 더욱 심도있게 필요.
👍