Embodied Web Agents: Bridging Physical-Digital Realms for Integrated Agent Intelligence
작성자
Haebom
저자
Yining Hong, Rui Sun, Bingxuan Li, Xingcheng Yao, Maxine Wu, Alexander Chien, Da Yin, Ying Nian Wu, Zhecan James Wang, Kai-Wei Chang
개요
본 논문은 물리적 세계와 웹상의 정보를 통합적으로 활용하는 '구현된 웹 에이전트(Embodied Web Agents)'라는 새로운 AI 에이전트 패러다임을 제시합니다. 기존 AI 에이전트는 온라인 정보를 처리하거나 물리적 세계와 상호작용하는 데에 한정되어 있지만, 구현된 웹 에이전트는 이 두 영역을 원활하게 연결하여 요리, 길찾기, 관광 등의 복합적인 작업 수행을 가능하게 합니다. 이를 위해 현실적인 3D 환경과 웹 인터페이스를 통합한 시뮬레이션 플랫폼과 다양한 작업을 포함하는 벤치마크를 개발하고 공개하였으며, 실험 결과를 통해 최첨단 AI 시스템과 인간의 능력 간의 성능 차이를 보여주고, 구현된 인지와 웹 규모의 지식 접근의 교차점에서의 과제와 기회를 제시합니다. 모든 데이터셋, 코드 및 웹사이트는 공개적으로 이용 가능합니다.