UITron-Speech: Towards Automated GUI Agents Based on Speech Instructions
Created by
Haebom
저자
Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Haibo Qiu, Chang Yao, Jingyuan Chen, Lin Ma
개요
본 논문은 GUI 에이전트의 입력 방식으로 음성을 사용하는 UITron-Speech를 제안합니다. 기존 텍스트 기반 GUI 에이전트의 접근성 및 편의성의 한계를 극복하기 위해, 음성 명령과 온디바이스 스크린샷을 직접 처리하여 사용자 행동을 예측하는 최초의 엔드투엔드 GUI 에이전트를 개발했습니다. 데이터 부족 문제 해결을 위해 무작위 화자 텍스트 음성 변환 모델을 사용하여 고품질 음성 명령 데이터셋을 합성하고, 사전 훈련된 기반 모델의 모달 불균형 문제를 완화하기 위해 혼합 모달리티 훈련 전략을 설계했습니다. 또한, GUI 그라운딩 예측 오류 분포에 대한 통계적 분석을 수행하고, 사소한 위치 오차를 완화하기 위한 훈련이 필요 없는 2단계 그라운딩 개선 방법을 제안했습니다. 다양한 벤치마크에 대한 광범위한 실험을 통해 UITron-Speech가 견고한 성능과 우수한 적응성을 달성함을 보여주어, 음성 기반 GUI 에이전트의 실현 가능성과 잠재력을 강조합니다. 코드와 데이터셋은 https://github.com/UITron-hub/UITron-Speech 에서 이용 가능합니다.