V-Droid là một tác nhân tự động hóa tác vụ GUI di động. Không giống như các LLM truyền thống tạo trực tiếp hành động cho từng bước, V-Droid sử dụng LLM làm công cụ xác minh để đánh giá các hành động ứng viên. Để đạt được điều này, chúng tôi trình bày một khuôn khổ toàn diện bao gồm quy trình làm việc chuyên dụng để xây dựng và điền trước một không gian hành động rời rạc, học tập ưu tiên tiến trình tương tác và một lược đồ chú thích chung giữa người và tác nhân có thể mở rộng. Trên nhiều điểm chuẩn tự động hóa tác vụ di động, bao gồm AndroidWorld, AndroidLab và MobileAgentBench, V-Droid đạt tỷ lệ thành công cao hơn (lần lượt là 59,5%, 38,3% và 49%) và tốc độ xử lý nhanh hơn đáng kể (4,3 giây mỗi bước, nhanh hơn 6,1 lần so với các tác nhân hiện có). Mã nguồn có sẵn trên GitHub.