본 논문은 대규모 다중 모달 모델(LMM) 기반의 웹 에이전트 성능 향상을 위해 대규모 다양한 궤적 레벨 데이터셋을 생성하는 방법을 제시합니다. 기존의 오픈소스 LMM 에이전트는 오프라인 평가 벤치마크에서는 성능이 향상되었지만, 현실적인 온라인 환경에서는 여전히 인간 수준의 능력에는 미치지 못하는데, 이는 다양하고 대규모의 궤적 레벨 데이터셋 부족이 주요 원인입니다. 본 논문에서는 94,000개 이상의 성공적인 다중 모달 웹 궤적, 49,000개의 고유 URL, 720,000개의 스크린샷, 3,300만 개의 웹 요소를 포함하는 대규모 데이터셋을 생성하는 확장 가능한 방법을 제시하고, 이를 활용하여 Explorer라는 다중 모달 웹 에이전트를 훈련하여 Mind2Web-Live, Multimodal-Mind2Web, MiniWob++ 등의 벤치마크에서 강력한 성능을 입증합니다. 성공적인 궤적당 평균 비용은 28센트로, 연구자들의 접근성을 높였습니다. 데이터 확장이 웹 에이전트 성능 향상의 주요 동인임을 실험적으로 보여줍니다.