Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents
Created by
Haebom
저자
Yu Gu, Kai Zhang, Yuting Ning, Boyuan Zheng, Boyu Gou, Tianci Xue, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su
개요
본 논문은 대규모 언어 모델(LLM) 기반 언어 에이전트를 이용한 웹 기반 작업 자동화에 대해 다룹니다. 기존 연구에서 트리 탐색과 같은 고급 계획 알고리즘이 반응형 계획보다 유리함을 보였지만, 웹과 같은 실제 환경에서는 되돌릴 수 없는 행동이 많아 백트래킹이 어렵고, 테스트 시간 탐색에 과도하게 의존하면 효율성이 떨어지는 문제점이 있습니다. 따라서 본 논문은 세계 모델을 사용하여 각 행동의 결과를 시뮬레이션하고 신중하게 고려한 후 행동을 결정하는 모델 기반 계획을 제안합니다. 웹 에이전트를 위한 모델 기반 계획 프레임워크인 WebDreamer를 제시하고, 확장 가능한 데이터 합성 파이프라인을 통해 세계 모델로 특수화된 LLM을 훈련합니다. 실험 결과, WebDreamer는 반응형 기준 모델보다 성능이 크게 향상되었으며, 샌드박스 환경(VisualWebArena)에서 트리 탐색과 비슷한 성능을 보이면서 4~5배 더 효율적임을 보였습니다. 또한 실제 웹사이트(Online-Mind2Web 및 Mind2Web-Live)에서도 효과적으로 작동함을 확인했습니다. 훈련된 세계 모델인 Dreamer-7B는 GPT-4o와 비슷한 성능을 보여 복잡한 웹 환경에서 효율적이고 효과적인 계획을 위한 특수화된 세계 모델의 잠재력을 강조합니다.
시사점, 한계점
•
시사점:
◦
모델 기반 계획이 웹 에이전트의 효율성과 성능을 향상시킬 수 있음을 보여줌.
◦
특수화된 LLM을 세계 모델로 활용하여 복잡한 웹 환경에서 효과적인 계획 수행 가능성 제시.