This page organizes papers related to artificial intelligence published around the world. This page is summarized using Google Gemini and is operated on a non-profit basis. The copyright of the paper belongs to the author and the relevant institution. When sharing, simply cite the source.
UITron-Speech: Towards Automated GUI Agents Based on Speech Instructions
Created by
Haebom
Category
Empty
저자
Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Longrong Yang, Haibo Qiu, Chang Yao, Jingyuan Chen, Lin Ma
개요
UITron-Speech는 음성 지시를 직접 처리하고 온디바이스 스크린샷을 사용하여 사용자 작업을 예측하는 최초의 종단간 GUI 에이전트입니다. 텍스트 대신 음성을 입력 방식으로 사용하여 접근성과 편의성을 향상시키는 것을 목표로 합니다. 데이터 희소성 문제를 해결하기 위해 고품질 음성 지시 데이터 세트를 합성하고, 사전 훈련된 파운데이션 모델의 내재된 모달리티 불균형을 완화하기 위해 혼합 모달리티 훈련 전략을 설계했습니다. 또한, GUI grounding 예측 오류 분포를 통계적으로 분석하고, 훈련이 필요 없는 2단계 grounding 개선 방법을 제안합니다.
시사점, 한계점
•
시사점:
◦
음성 기반 GUI 에이전트의 실현 가능성과 잠재력을 보여줌.
◦
접근성이 더 뛰어나고 지능적인 인간-컴퓨터 상호 작용을 위한 길을 제시.
◦
데이터 희소성 및 모달리티 불균형 문제를 해결하기 위한 혁신적인 방법론 제시.
◦
훈련이 필요 없는 grounding 개선 방법으로 성능 향상.
•
한계점:
◦
논문에서 구체적인 한계점은 명시되지 않음. (다만, 일반적으로 GUI 에이전트의 한계점과 관련된, 복잡한 GUI 환경에서의 성능 저하, 다양한 음성 입력의 이해 어려움 등이 잠재적 한계로 고려될 수 있음.)