V-Droid는 대규모 언어 모델(LLM)을 사용하여 모바일 GUI 작업 자동화 에이전트입니다. 기존의 각 단계에서 LLM을 사용하여 직접 행동을 생성하는 에이전트와 달리, V-Droid는 LLM을 검증자로 사용하여 후보 행동을 평가한 후 최종 결정을 내립니다. 이를 위해 이산화된 행동 공간 구성과 사전 채우기 전용 워크플로우를 통한 검증 프로세스 가속화, 쌍방향 진행 선호도 학습을 통한 검증자 의사결정 능력 향상, 확장 가능한 인간-에이전트 공동 주석 방식을 통한 효율적인 대규모 데이터 수집 등의 포괄적인 프레임워크를 제시합니다. AndroidWorld, AndroidLab, MobileAgentBench 등 여러 공개 모바일 작업 자동화 벤치마크에서 최첨단 작업 성공률(각각 59.5%, 38.3%, 49%)을 달성하여 기존 에이전트보다 9.5%, 2.1%, 9%의 성능 향상을 보였습니다. 또한, 단계당 0.7초의 낮은 지연 시간을 달성하여 실시간에 가까운 효과적인 의사결정 능력을 제공하는 최초의 모바일 에이전트입니다.