# Weblica: Scalable and Reproducible Training Environments for Visual Web Agents

### 저자

O\u{g}uzhan Fatih Kar, Roman Bachmann, Yuanzheng Gong, Anders Boesen Lindbo Larsen, Afshin Dehghan

### 💡 개요

본 논문은 복잡하고 변화하는 웹 환경에서의 시각적 웹 에이전트 훈련 데이터 수집의 어려움을 해결하기 위해, 재현 가능하고 확장 가능한 웹 환경 구축 프레임워크인 Weblica를 제안합니다. HTTP 레벨 캐싱과 LLM 기반 환경 합성을 통해 실제 웹사이트와 핵심 네비게이션 기술을 기반으로 수천 개의 다양하고 재현 가능한 웹 환경을 생성하여 시각적 웹 에이전트의 강화 학습 훈련을 확장했습니다. 이를 통해 제안된 Weblica-8B 모델은 기존 모델보다 우수한 성능을 보이며, 추론 단계 수를 줄이고 추가적인 컴퓨팅 자원 활용 시 성능 향상이 가능함을 입증했습니다.

### 🔑 시사점 및 한계

- 웹 환경의 다양성과 복잡성을 포착하기 위한 재현 가능하고 확장 가능한 훈련 환경 구축의 필요성을 강조하며, 이를 위한 구체적인 기술적 접근 방식(HTTP 캐싱, LLM 기반 환경 합성)을 제시합니다.

- 제안된 Weblica 프레임워크를 통해 대규모의 다양하고 재현 가능한 웹 환경에서 훈련된 시각적 웹 에이전트가 기존 모델 대비 뛰어난 성능을 보이며, 효율성 및 확장성 측면에서도 장점을 가짐을 보여줍니다.

- LLM 기반 환경 합성의 정확성 및 실제 웹 환경과의 완벽한 재현 가능성에 대한 추가적인 검증과, LLM의 최신 웹 기술 변화에 대한 지속적인 업데이트 및 적용 방안에 대한 연구가 필요할 수 있습니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.06761)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
