Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction

Created by
  • Haebom

저자

Bin Lei, Weitai Kang, Zijian Zhang, Winson Chen, Xi Xie, Shan Zuo, Mimi Xie, Ali Payani, Mingyi Hong, Yan Yan, Caiwen Ding

개요

본 논문은 다양한 모달리티(텍스트, 이미지, 오디오, 비디오)를 활용하여 컴퓨터와 상호작용할 수 있는 범용 에이전트인 InfantAgent-Next를 소개합니다. 기존의 접근 방식들이 단일 대규모 모델을 중심으로 복잡한 워크플로우를 구축하거나 워크플로우 모듈성만 제공하는 것과 달리, InfantAgent-Next는 도구 기반 에이전트와 순수 비전 에이전트를 고도로 모듈화된 아키텍처에 통합하여 서로 다른 모델들이 단계별로 분리된 작업을 협업하여 해결할 수 있도록 합니다. OSWorld, GAIA, SWE-Bench 등 다양한 벤치마크(순수 비전 기반 실제 환경 벤치마크부터 도구 집약적인 벤치마크까지)에서의 성능을 통해 일반성을 입증하며, 특히 OSWorld에서 Claude-Computer-Use보다 높은 $\mathbf{7.27}$의 정확도를 달성했습니다. 코드와 평가 스크립트는 https://github.com/bin123apple/InfantAgent 에서 공개됩니다.

시사점, 한계점

시사점:
다양한 모달리티를 활용하는 범용 에이전트 개발의 가능성을 보여줌.
고도로 모듈화된 아키텍처를 통해 다양한 모델의 협업 가능.
기존 방식보다 향상된 성능을 다양한 벤치마크에서 입증.
오픈소스 공개를 통한 연구 확장성 제고.
한계점:
OSWorld에서의 성능 향상폭이 크지 않음 (7.27%는 상대적으로 낮은 수치일 수 있음).
아직까지는 소개된 모델의 한계점이나 제약사항에 대한 구체적인 설명이 부족함.
논문에서 제시된 벤치마크 외 다른 환경에서의 성능은 알 수 없음.
👍