Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction

Created by
  • Haebom

저자

Bin Lei, Weitai Kang, Zijian Zhang, Winson Chen, Xi Xie, Shan Zuo, Mimi Xie, Ali Payani, Mingyi Hong, Yan Yan, Caiwen Ding

개요

본 논문은 다양한 모드(텍스트, 이미지, 오디오, 비디오)를 통해 컴퓨터와 상호 작용할 수 있는 일반적인 에이전트인 InfantAgent-Next를 소개합니다. 기존의 단일 대규모 모델 중심의 복잡한 워크플로우 또는 모듈성이 제한적인 접근 방식과 달리, InfantAgent-Next는 도구 기반 에이전트와 순수 비전 에이전트를 고도로 모듈화된 아키텍처에 통합하여 서로 다른 모델이 단계별로 분리된 작업을 협업하여 해결할 수 있도록 합니다. OSWorld, GAIA, SWE-Bench와 같은 다양한 벤치마크(순수 비전 기반 실제 환경 벤치마크부터 도구 사용이 많은 벤치마크까지)에서의 성능을 통해 일반성을 입증하며, OSWorld에서 7.27%의 정확도를 달성하여 Claude-Computer-Use를 능가합니다. 코드와 평가 스크립트는 깃허브(https://github.com/bin123apple/InfantAgent)에서 공개됩니다.

시사점, 한계점

시사점: 다양한 모드와 도구를 사용하는 고도로 모듈화된 아키텍처를 통해 다양한 작업을 수행할 수 있는 일반적인 에이전트 개발 가능성을 보여줍니다. OSWorld에서 기존 모델보다 높은 정확도를 달성하여 성능의 우수성을 입증했습니다. 오픈소스 공개를 통해 연구의 재현성과 발전에 기여합니다.
한계점: 논문에서 구체적인 아키텍처 설계 및 각 모듈의 기능에 대한 자세한 설명이 부족합니다. 다양한 벤치마크에서의 성능 비교가 더욱 심도 있게 이루어질 필요가 있습니다. InfantAgent-Next의 확장성과 일반화 능력에 대한 추가적인 실험 및 분석이 필요합니다.
👍