Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents

Created by
  • Haebom

저자

Yu Gu, Kai Zhang, Yuting Ning, Boyuan Zheng, Boyu Gou, Tianci Xue, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su

개요

본 논문은 대규모 언어 모델(LLM) 기반 언어 에이전트를 이용한 웹 기반 작업 자동화에 대해 다룹니다. 기존 연구에서 트리 탐색과 같은 고급 계획 알고리즘이 반응형 계획보다 유리함을 보였지만, 웹과 같은 실제 환경에서는 되돌릴 수 없는 행동이 많아 백트래킹이 어렵고, 테스트 시간 탐색에 과도하게 의존하면 효율성이 떨어지는 문제점이 있습니다. 따라서 본 논문은 세계 모델을 사용하여 각 행동의 결과를 시뮬레이션하고 신중하게 고려한 후 행동을 결정하는 모델 기반 계획을 제안합니다. 웹 에이전트를 위한 모델 기반 계획 프레임워크인 WebDreamer를 제시하고, 확장 가능한 데이터 합성 파이프라인을 통해 세계 모델로 특수화된 LLM을 훈련합니다. 실험 결과, WebDreamer는 반응형 기준 모델보다 성능이 크게 향상되었으며, 샌드박스 환경(VisualWebArena)에서 트리 탐색과 비슷한 성능을 보이면서 4~5배 더 효율적임을 보였습니다. 또한 실제 웹사이트(Online-Mind2Web 및 Mind2Web-Live)에서도 효과적으로 작동함을 확인했습니다. 훈련된 세계 모델인 Dreamer-7B는 GPT-4o와 비슷한 성능을 보여 복잡한 웹 환경에서 효율적이고 효과적인 계획을 위한 특수화된 세계 모델의 잠재력을 강조합니다.

시사점, 한계점

시사점:
모델 기반 계획이 웹 에이전트의 효율성과 성능을 향상시킬 수 있음을 보여줌.
특수화된 LLM을 세계 모델로 활용하여 복잡한 웹 환경에서 효과적인 계획 수행 가능성 제시.
WebDreamer는 기존 방법보다 효율적이며 실제 웹 환경에서도 효과적으로 작동.
Dreamer-7B 모델은 기존 최첨단 모델과 비교 가능한 성능을 보임.
한계점:
제시된 세계 모델의 일반화 능력에 대한 추가적인 연구 필요.
다양한 웹 환경에 대한 로버스트니스(Robustness) 평가 추가 필요.
세계 모델 훈련에 필요한 데이터의 규모와 품질에 대한 제약 존재 가능성.
실제 웹 환경의 예측 불가능성에 대한 대응 방안에 대한 추가 연구 필요.
👍