InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction
Created by
Haebom
저자
Bin Lei, Weitai Kang, Zijian Zhang, Winson Chen, Xi Xie, Shan Zuo, Mimi Xie, Ali Payani, Mingyi Hong, Yan Yan, Caiwen Ding
개요
본 논문은 다양한 모달리티(텍스트, 이미지, 오디오, 비디오)를 활용하여 컴퓨터와 상호작용할 수 있는 범용 에이전트인 InfantAgent-Next를 소개합니다. 기존의 접근 방식들이 단일 대규모 모델을 중심으로 복잡한 워크플로우를 구축하거나 워크플로우 모듈성만 제공하는 것과 달리, InfantAgent-Next는 도구 기반 에이전트와 순수 비전 에이전트를 고도로 모듈화된 아키텍처에 통합하여 서로 다른 모델들이 단계별로 분리된 작업을 협업하여 해결할 수 있도록 합니다. OSWorld, GAIA, SWE-Bench 등 다양한 벤치마크(순수 비전 기반 실제 환경 벤치마크부터 도구 집약적인 벤치마크까지)에서의 성능을 통해 일반성을 입증하며, 특히 OSWorld에서 Claude-Computer-Use보다 높은 $\mathbf{7.27}$의 정확도를 달성했습니다. 코드와 평가 스크립트는 https://github.com/bin123apple/InfantAgent 에서 공개됩니다.