Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Building a Stable Planner: An Extended Finite State Machine Based Planning Module for Mobile GUI Agent

Created by
  • Haebom

저자

Fanglin Mo, Junzhe Chen, Haoxuan Zhu, Xuming Hu

개요

본 논문은 모바일 GUI 에이전트의 과제 계획 문제를 해결하기 위해 플러그 앤 플레이 방식의 계획 모듈인 SPlanner를 제안한다. SPlanner는 확장 유한 상태 기계(EFSMs)를 이용하여 모바일 애플리케이션의 제어 로짓과 설정을 모델링하고, 사용자 지시어를 EFSMs에 모델링된 주요 기능의 순서로 분해하여 EFSMs를 거쳐 실행 경로를 생성한다. 생성된 실행 경로는 LLM을 사용하여 간결하고 실행 가능한 자연어 계획으로 세련화되며, 이 계획은 VLM이 사용자 과제를 달성하기 위한 대화형 GUI 동작을 생성하도록 효과적으로 안내한다. 실험 결과, AndroidWorld 벤치마크에서 Qwen2.5-VL-72B와 함께 사용 시 63.8%의 과제 성공률을 달성하여, 계획 지원 없이 Qwen2.5-VL-72B를 사용했을 때보다 28.8% 향상된 성능을 보였다.

시사점, 한계점

시사점:
모바일 GUI 에이전트의 과제 계획 문제에 대한 효과적인 해결책 제시
SPlanner를 통해 VLM의 성능을 크게 향상시킬 수 있음을 입증
플러그 앤 플레이 방식으로 다양한 VLM 및 애플리케이션에 적용 가능성이 높음
간결하고 실행 가능한 자연어 계획 생성을 통해 VLM의 이해도 향상
한계점:
SPlanner의 성능은 사용되는 VLM의 성능에 의존적일 수 있음
다양한 모바일 애플리케이션 및 GUI의 복잡성에 대한 일반화 성능 검증 필요
EFSM 모델링의 정확성이 SPlanner의 성능에 큰 영향을 미칠 수 있음
실제 사용 환경에서의 견고성 및 안정성에 대한 추가적인 평가 필요
👍