Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

UITron-Speech: Hướng tới các tác nhân GUI tự động dựa trên các lệnh thoại

Created by
  • Haebom

Tác giả

Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Haibo Qiu, Chang Yao, Jingyuan Chen, Lin Ma

Phác thảo

Bài báo này đề xuất UITron-Speech, một tác nhân GUI dựa trên giọng nói. Để khắc phục những hạn chế về khả năng truy cập và khả năng sử dụng của các tác nhân GUI dựa trên văn bản hiện có, chúng tôi phát triển tác nhân GUI đầu cuối đầu tiên xử lý trực tiếp các lệnh thoại và ảnh chụp màn hình trên thiết bị để dự đoán hành vi của người dùng. Để giải quyết tình trạng thiếu dữ liệu, chúng tôi tổng hợp một tập dữ liệu lệnh thoại chất lượng cao bằng cách sử dụng mô hình chuyển văn bản thành giọng nói của người nói ngẫu nhiên và thiết kế một chiến lược huấn luyện đa phương thức để giảm thiểu vấn đề mất cân bằng phương thức của các mô hình cơ sở được huấn luyện trước. Hơn nữa, chúng tôi thực hiện phân tích thống kê về phân phối lỗi dự đoán nối đất GUI và đề xuất một phương pháp cải thiện nối đất hai bước không cần huấn luyện để giảm thiểu các lỗi vị trí nhỏ. Các thử nghiệm mở rộng trên nhiều điểm chuẩn khác nhau chứng minh rằng UITron-Speech đạt được hiệu suất mạnh mẽ và khả năng thích ứng tuyệt vời, làm nổi bật tính khả thi và tiềm năng của các tác nhân GUI dựa trên giọng nói. Mã nguồn và tập dữ liệu có sẵn tại https://github.com/UITron-hub/UITron-Speech .

Takeaways, Limitations

Takeaways:
Thể hiện tính khả thi và khả năng tiếp cận của các tác nhân GUI dựa trên giọng nói.
Trình bày các chiến lược tổng hợp dữ liệu và đào tạo hiệu quả để giải quyết vấn đề thiếu dữ liệu.
Đề Xuất phương pháp hiệu quả để cải thiện lỗi nối đất GUI.
ĐưA ra những khả năng mới cho sự tương tác giữa con người và máy tính thông minh và thuận tiện hơn.
Limitations:
Cần có thêm nghiên cứu về hiệu suất tổng quát của phương pháp được trình bày trong bài báo này.
Cần đánh giá độ mạnh mẽ trong nhiều môi trường ngôn ngữ và lời nói khác nhau.
Cần phải đánh giá hiệu suất và nghiên cứu trải nghiệm người dùng trong môi trường sử dụng thực tế.
Cần phải xác minh khả năng áp dụng cho các GUI phức tạp hoặc nhiều loại GUI khác nhau.
👍