본 논문에서는 모바일 자동화를 위한 에지-클라우드 협업 멀티 에이전트 프레임워크인 EcoAgent를 제안합니다. EcoAgent는 클라우드 기반 계획 에이전트와 에지 기반 실행 에이전트 및 관찰 에이전트로 구성됩니다. 관찰 에이전트는 화면 이미지를 간결한 텍스트로 압축하여 토큰 사용량과 통신 오버헤드를 줄이고, 실패 시에는 메모리 모듈을 통해 화면 이력을 검색하고 반성 모듈을 통해 재계획합니다. (다중 모드) 대규모 언어 모델 기반의 클라우드 모바일 에이전트는 강력한 추론 능력을 제공하지만 높은 지연 시간과 비용이 문제입니다. 반면 미세 조정된 모델은 에지 배포가 가능하지만 일반적인 기능이 저하되고 복잡한 작업에 어려움을 겪습니다. EcoAgent는 클라우드 기반 에이전트와 유사한 작업 성공률을 달성하면서 MLLM 토큰 소비량을 크게 줄여 효율적이고 실용적인 모바일 자동화를 가능하게 합니다.
시사점, 한계점
•
시사점:
◦
에지-클라우드 협업을 통해 클라우드 기반 모바일 에이전트의 높은 지연 시간과 비용 문제를 해결