본 논문은 대규모 기초 모델(LFMs) 기반 모바일 GUI 에이전트의 신뢰성 문제를 해결하기 위해, 형식적 검증 시스템인 VeriSafe Agent (VSA)를 제안한다. VSA는 자연어 사용자 명령어를 형식적으로 검증 가능한 명세로 변환하는 자동 형식화 기법을 통해 에이전트의 행동이 사용자 의도와 정확히 일치하는지 실시간으로 검증한다. GPT-4o를 사용하여 구현되었으며, 18개의 모바일 앱에서 300개의 사용자 명령어를 대상으로 평가한 결과, 기존 방법보다 30.00%-16.33% 향상된 94.33%-98.33%의 정확도를 달성하여 GUI 에이전트의 작업 완료율을 90%-130% 향상시켰다. 이는 LFM 기반 행동과 형식적 소프트웨어 검증 간의 격차를 해소하는 최초의 시도이다.
시사점, 한계점
•
시사점:
◦
LFM 기반 모바일 GUI 에이전트의 신뢰성 및 안전성을 크게 향상시킬 수 있는 새로운 형식적 검증 시스템을 제시.
◦
자동 형식화 기법을 통해 자연어 명령어를 형식적 명세로 효과적으로 변환 가능함을 보여줌.
◦
실제 모바일 앱에서의 실험 결과를 통해 VSA의 우수한 성능을 검증.
◦
LFM 기반 시스템의 안전성 확보에 대한 새로운 패러다임 제시.
•
한계점:
◦
현재 GPT-4o에 의존하고 있어, 다른 LFM 모델에 대한 일반화 가능성은 추가 연구가 필요.
◦
18개 앱과 300개의 사용자 명령어로는 모든 유형의 모바일 작업을 포괄하기에는 제한적일 수 있음.