InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction
Created by
Haebom
저자
Bin Lei, Weitai Kang, Zijian Zhang, Winson Chen, Xi Xie, Shan Zuo, Mimi Xie, Ali Payani, Mingyi Hong, Yan Yan, Caiwen Ding
개요
본 논문은 다양한 모드(텍스트, 이미지, 오디오, 비디오)를 통해 컴퓨터와 상호 작용할 수 있는 일반적인 에이전트인 InfantAgent-Next를 소개합니다. 기존의 단일 대규모 모델 중심의 복잡한 워크플로우 또는 모듈성이 제한적인 접근 방식과 달리, InfantAgent-Next는 도구 기반 에이전트와 순수 비전 에이전트를 고도로 모듈화된 아키텍처에 통합하여 서로 다른 모델이 단계별로 분리된 작업을 협업하여 해결할 수 있도록 합니다. OSWorld, GAIA, SWE-Bench와 같은 다양한 벤치마크(순수 비전 기반 실제 환경 벤치마크부터 도구 사용이 많은 벤치마크까지)에서의 성능을 통해 일반성을 입증하며, OSWorld에서 7.27%의 정확도를 달성하여 Claude-Computer-Use를 능가합니다. 코드와 평가 스크립트는 깃허브(https://github.com/bin123apple/InfantAgent)에서 공개됩니다.
시사점, 한계점
•
시사점: 다양한 모드와 도구를 사용하는 고도로 모듈화된 아키텍처를 통해 다양한 작업을 수행할 수 있는 일반적인 에이전트 개발 가능성을 보여줍니다. OSWorld에서 기존 모델보다 높은 정확도를 달성하여 성능의 우수성을 입증했습니다. 오픈소스 공개를 통해 연구의 재현성과 발전에 기여합니다.
•
한계점: 논문에서 구체적인 아키텍처 설계 및 각 모듈의 기능에 대한 자세한 설명이 부족합니다. 다양한 벤치마크에서의 성능 비교가 더욱 심도 있게 이루어질 필요가 있습니다. InfantAgent-Next의 확장성과 일반화 능력에 대한 추가적인 실험 및 분석이 필요합니다.