Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UITron-Speech: Towards Automated GUI Agents Based on Speech Instructions

Created by
  • Haebom

저자

Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Haibo Qiu, Chang Yao, Jingyuan Chen, Lin Ma

개요

본 논문은 GUI 에이전트의 입력 방식으로 음성을 사용하는 UITron-Speech를 제안합니다. 기존 텍스트 기반 GUI 에이전트의 접근성 및 편의성의 한계를 극복하기 위해, 음성 명령과 온디바이스 스크린샷을 직접 처리하여 사용자 행동을 예측하는 최초의 엔드투엔드 GUI 에이전트를 개발했습니다. 데이터 부족 문제 해결을 위해 무작위 화자 텍스트 음성 변환 모델을 사용하여 고품질 음성 명령 데이터셋을 합성하고, 사전 훈련된 기반 모델의 모달 불균형 문제를 완화하기 위해 혼합 모달리티 훈련 전략을 설계했습니다. 또한, GUI 그라운딩 예측 오류 분포에 대한 통계적 분석을 수행하고, 사소한 위치 오차를 완화하기 위한 훈련이 필요 없는 2단계 그라운딩 개선 방법을 제안했습니다. 다양한 벤치마크에 대한 광범위한 실험을 통해 UITron-Speech가 견고한 성능과 우수한 적응성을 달성함을 보여주어, 음성 기반 GUI 에이전트의 실현 가능성과 잠재력을 강조합니다. 코드와 데이터셋은 https://github.com/UITron-hub/UITron-Speech 에서 이용 가능합니다.

시사점, 한계점

시사점:
음성 기반 GUI 에이전트의 실현 가능성과 접근성 향상을 보여줌.
데이터 부족 문제 해결을 위한 효과적인 데이터 합성 및 훈련 전략 제시.
GUI 그라운딩 오류 개선을 위한 효율적인 방법 제안.
더욱 편리하고 지능적인 인간-컴퓨터 상호작용을 위한 새로운 가능성 제시.
한계점:
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 음성 및 언어 환경에 대한 로버스트니스 평가 필요.
실제 사용 환경에서의 성능 평가 및 사용자 경험 연구 필요.
복잡한 GUI 또는 다양한 유형의 GUI 에 대한 적용 가능성 검증 필요.
👍