Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
UITron-Speech: Hacia agentes GUI automatizados basados en instrucciones de voz
Created by
Haebom
Autor
Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Haibo Qiu, Chang Yao, Jingyuan Chen, Lin Ma
Describir
Este artículo propone UITron-Speech, un agente GUI basado en voz. Para superar las limitaciones de accesibilidad y usabilidad de los agentes GUI basados en texto existentes, desarrollamos el primer agente GUI de extremo a extremo que procesa directamente comandos de voz y capturas de pantalla en el dispositivo para predecir el comportamiento del usuario. Para abordar la insuficiencia de datos, sintetizamos un conjunto de datos de comandos de voz de alta calidad utilizando un modelo de texto a voz de hablante aleatorio y diseñamos una estrategia de entrenamiento de modalidad mixta para mitigar el problema de desequilibrio de modalidad de los modelos base preentrenados. Además, realizamos un análisis estadístico de la distribución del error de predicción de la base de la GUI y proponemos un método de mejora de la base de dos pasos sin entrenamiento para mitigar errores de posición menores. Amplios experimentos en varios puntos de referencia demuestran que UITron-Speech logra un rendimiento robusto y una excelente adaptabilidad, lo que destaca la viabilidad y el potencial de los agentes GUI basados en voz. El código y el conjunto de datos están disponibles en https://github.com/UITron-hub/UITron-Speech .