본 논문은 대규모 기초 모델(LFMs) 기반 모바일 GUI 에이전트의 신뢰성 문제를 해결하기 위해, 형식 검증 시스템인 VeriSafe Agent (VSA)를 제안한다. VSA는 자연어 사용자 명령어를 형식적으로 검증 가능한 명세로 변환하는 자동 형식화 기술을 통해 에이전트의 행동이 사용자 의도와 정확히 일치하는지 검증한다. 도메인 특화 언어(DSL)를 사용하여 런타임 규칙 기반 검증을 수행하며, 잘못된 동작을 감지하여 수정 피드백을 제공하거나 위험한 행동을 중지시킨다. GPT-4o를 활용하여 구현되었으며, 18개의 앱에서 300개의 사용자 명령어를 대상으로 평가한 결과, 기존 방법 대비 20.4%-25.6% 향상된 정확도(94.3%-98.33%)를 달성하여 GUI 에이전트의 작업 완료율을 90%-130% 향상시켰다.
시사점, 한계점
•
시사점:
◦
LLM 기반 모바일 GUI 에이전트의 안전성과 신뢰성을 크게 향상시킬 수 있는 새로운 형식 검증 시스템 제시.
◦
자동 형식화 기술을 통해 자연어 명령어를 형식적 명세로 효과적으로 변환 가능함을 보여줌.
◦
실제 모바일 앱 환경에서의 실험을 통해 VSA의 성능과 효용성을 검증.
◦
LLM 기반 자동화 시스템의 신뢰성 향상에 기여.
•
한계점:
◦
현재는 특정 DSL과 GPT-4o에 의존적이며, 다른 LLM이나 DSL에 대한 확장성 연구 필요.
◦
자동 형식화 과정의 완벽성과 한계에 대한 추가적인 분석 필요. 모든 종류의 자연어 명령어를 완벽하게 형식화하지 못할 가능성 존재.
◦
평가 데이터셋의 범위가 제한적일 수 있으며, 더 다양한 상황과 앱에 대한 추가적인 평가 필요.