Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
UITron-Speech: Hướng tới các tác nhân GUI tự động dựa trên các lệnh thoại
Created by
Haebom
Tác giả
Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Haibo Qiu, Chang Yao, Jingyuan Chen, Lin Ma
Phác thảo
Bài báo này đề xuất UITron-Speech, một tác nhân GUI dựa trên giọng nói. Để khắc phục những hạn chế về khả năng truy cập và khả năng sử dụng của các tác nhân GUI dựa trên văn bản hiện có, chúng tôi phát triển tác nhân GUI đầu cuối đầu tiên xử lý trực tiếp các lệnh thoại và ảnh chụp màn hình trên thiết bị để dự đoán hành vi của người dùng. Để giải quyết tình trạng thiếu dữ liệu, chúng tôi tổng hợp một tập dữ liệu lệnh thoại chất lượng cao bằng cách sử dụng mô hình chuyển văn bản thành giọng nói của người nói ngẫu nhiên và thiết kế một chiến lược huấn luyện đa phương thức để giảm thiểu vấn đề mất cân bằng phương thức của các mô hình cơ sở được huấn luyện trước. Hơn nữa, chúng tôi thực hiện phân tích thống kê về phân phối lỗi dự đoán nối đất GUI và đề xuất một phương pháp cải thiện nối đất hai bước không cần huấn luyện để giảm thiểu các lỗi vị trí nhỏ. Các thử nghiệm mở rộng trên nhiều điểm chuẩn khác nhau chứng minh rằng UITron-Speech đạt được hiệu suất mạnh mẽ và khả năng thích ứng tuyệt vời, làm nổi bật tính khả thi và tiềm năng của các tác nhân GUI dựa trên giọng nói. Mã nguồn và tập dữ liệu có sẵn tại https://github.com/UITron-hub/UITron-Speech .