Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents

Created by
  • Haebom

저자

Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah

개요

본 논문은 대규모 다중 모달 모델(LMM) 기반 웹 에이전트의 성능 향상을 위한 대규모 다양한 트래젝토리 레벨 데이터셋을 생성하고, 이를 활용하여 웹 에이전트 Explorer를 학습시킨 연구에 대한 내용입니다. 기존의 오프라인 평가 벤치마크에서의 성능은 인간 수준에 미치지 못했던 LMM 에이전트의 한계를 극복하기 위해, 94,000개 이상의 성공적인 다중 모달 웹 트래젝토리를 포함하는 대규모 데이터셋을 생성하는 확장 가능한 방법을 제시합니다. 이 데이터셋은 다양한 웹 탐색 및 개선을 통해 다양한 작업 의도를 얻었으며, 49,000개의 고유 URL, 720,000개의 스크린샷, 3,300만 개의 웹 요소를 포함합니다. 본 논문에서 제시하는 데이터셋을 사용하여 학습된 Explorer는 Mind2Web-Live, Multimodal-Mind2Web, MiniWob++ 등의 오프라인 및 온라인 웹 에이전트 벤치마크에서 강력한 성능을 보여주며, 데이터 확장이 웹 에이전트 성능 향상에 중요한 역할을 한다는 것을 실험적으로 보여줍니다. 평균 28센트의 저렴한 비용으로 생성된 이 데이터셋은 더 많은 연구자들이 LMM 기반 에이전트 연구를 수행할 수 있도록 지원할 것으로 기대됩니다.

시사점, 한계점

시사점:
대규모 다양한 트래젝토리 레벨 데이터셋 생성을 위한 확장 가능한 방법 제시
저렴한 비용으로 대규모 데이터셋 생성 (평균 28센트/트래젝토리)
Mind2Web-Live, Multimodal-Mind2Web, MiniWob++ 등의 벤치마크에서 강력한 성능을 보이는 웹 에이전트 Explorer 개발
데이터 확장이 웹 에이전트 성능 향상에 중요한 요소임을 실증
LMM 기반 에이전트 연구의 접근성 향상
한계점:
데이터셋의 다양성 및 규모에도 불구하고, 여전히 인간 수준의 성능에는 미치지 못할 수 있음.
생성된 데이터셋의 편향성에 대한 분석 및 해결 방안 필요.
Explorer의 성능을 다른 최첨단 웹 에이전트와의 비교 분석이 부족할 수 있음.
데이터 수집 과정에서 발생할 수 있는 윤리적 문제에 대한 고려가 부족할 수 있음.
👍