본 논문은 대규모 다중 모달 모델(LMM) 기반 웹 에이전트의 성능 향상을 위한 대규모 다양한 트래젝토리 레벨 데이터셋을 생성하고, 이를 활용하여 웹 에이전트 Explorer를 학습시킨 연구에 대한 내용입니다. 기존의 오프라인 평가 벤치마크에서의 성능은 인간 수준에 미치지 못했던 LMM 에이전트의 한계를 극복하기 위해, 94,000개 이상의 성공적인 다중 모달 웹 트래젝토리를 포함하는 대규모 데이터셋을 생성하는 확장 가능한 방법을 제시합니다. 이 데이터셋은 다양한 웹 탐색 및 개선을 통해 다양한 작업 의도를 얻었으며, 49,000개의 고유 URL, 720,000개의 스크린샷, 3,300만 개의 웹 요소를 포함합니다. 본 논문에서 제시하는 데이터셋을 사용하여 학습된 Explorer는 Mind2Web-Live, Multimodal-Mind2Web, MiniWob++ 등의 오프라인 및 온라인 웹 에이전트 벤치마크에서 강력한 성능을 보여주며, 데이터 확장이 웹 에이전트 성능 향상에 중요한 역할을 한다는 것을 실험적으로 보여줍니다. 평균 28센트의 저렴한 비용으로 생성된 이 데이터셋은 더 많은 연구자들이 LMM 기반 에이전트 연구를 수행할 수 있도록 지원할 것으로 기대됩니다.