기존의 다중 모달 대규모 언어 모델(MLLM) 기반 에이전트는 기기의 복잡한 GUI(Graphical User Interface) 상호작용 처리에 있어 상당한 어려움을 겪는다. 이러한 어려움은 GUI 환경의 동적이고 구조적인 특성(텍스트, 이미지, 공간적 관계 통합 및 페이지와 작업 간의 동작 공간 변동성 포함)에서 비롯된다. 이러한 한계를 해결하기 위해 본 논문에서는 새로운 MLLM 기반 모바일 어시스턴트 시스템인 MobA를 제안한다. MobA는 오류 복구를 위한 반성 메커니즘을 통합하고 실제 환경 맥락 및 동작 모듈의 실행 능력에 맞춰 계획을 동적으로 조정하는 적응형 계획 모듈을 도입한다. 또한, 다면적 메모리 모듈은 적응성과 효율성을 높이기 위해 포괄적인 메모리 지원을 제공한다. 본 논문에서는 복잡한 모바일 상호작용을 위해 설계된 데이터셋인 MobBench도 제시한다. MobBench와 AndroidArena에 대한 실험 결과는 MobA가 동적인 GUI 환경을 처리하고 복잡한 모바일 작업을 수행할 수 있음을 보여준다.
시사점, 한계점
•
시사점:
◦
MLLM 기반 모바일 어시스턴트 시스템의 새로운 아키텍처(MobA) 제안
◦
복잡한 모바일 상호작용을 위한 새로운 데이터셋(MobBench) 제시
◦
적응형 계획 및 다면적 메모리 모듈을 통해 동적 GUI 환경에서의 효율적인 작업 수행 가능성 입증