Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation

Created by
  • Haebom
Category
Empty

저자

Yuxiang Zhou, Jichang Li, Yanhao Zhang, Haonan Lu, Guanbin Li

개요

Mobile agents는 잠재력이 크지만, 현존하는 기술은 실제 환경에서 장기간의, 여러 애플리케이션에 걸친 작업에서 성공률이 낮다는 한계가 있다. 이는 MLLM 내의 정적이고 내부적인 지식에 과도하게 의존하기 때문이며, 이는 계획 단계에서의 전략적 환각과 UI에서의 작업 실행 오류로 이어진다. 본 논문은 고차원 계획과 저차원 UI 작업에 필요한 지식이 다르다는 점에 착안하여, 이중 레벨 검색 증강을 통합한 새로운 계층적 다중 에이전트 프레임워크인 Mobile-Agent-RAG를 제안한다. 계획 단계에서는 Manager-RAG를 통해 인간이 검증한 포괄적인 작업 계획을 검색하여 전략적 환각을 줄이고, 실행 단계에서는 Operator-RAG를 통해 정확한 원자적 행동에 대한 정밀한 저차원 지침을 검색하여 실행 정확도를 향상시킨다. Mobile-Agent-RAG는 두 개의 특화된 검색 지향 지식 기반을 구축하며, 실제 다중 애플리케이션, 장기간 작업에 대한 에이전트 평가를 위한 Mobile-Eval-RAG 벤치마크를 제시한다. 실험 결과, Mobile-Agent-RAG는 기존 기술 대비 작업 완료율 11.0%, 단계 효율성 10.2% 향상을 보였다.

시사점, 한계점

시사점:
Mobile-Agent-RAG는 맥락 인지적이고 신뢰할 수 있는 다중 에이전트 모바일 자동화의 새로운 패러다임을 제시한다.
이중 레벨 검색 증강을 통한 계획 및 실행 단계의 지식 개선은 에이전트 성능 향상에 기여한다.
Mobile-Eval-RAG 벤치마크는 실제 환경에서의 에이전트 평가를 위한 새로운 기준을 제공한다.
한계점:
논문에서 구체적인 한계점에 대한 언급은 없음.
👍