V-Droid는 모바일 GUI 작업 자동화 에이전트로, 기존의 LLM을 이용해 각 단계의 동작을 직접 생성하는 방식과 달리, 후보 동작을 평가하는 검증자(verifier)로 LLM을 활용합니다. 이를 위해 이산화된 동작 공간 구축 및 사전 채우기 전용 워크플로우, 쌍방향 진행 상황 선호도 학습, 확장 가능한 사람-에이전트 공동 주석 방식 등의 포괄적인 프레임워크를 제시합니다. AndroidWorld, AndroidLab, MobileAgentBench 등 여러 모바일 작업 자동화 벤치마크에서 기존 에이전트보다 높은 성공률(각각 59.5%, 38.3%, 49%)과 훨씬 빠른 처리 속도(단계당 4.3초, 기존 대비 6.1배 빠름)를 달성했습니다. 소스 코드는 깃허브에서 공개됩니다.