Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

UITron-Speech: Hacia agentes GUI automatizados basados en instrucciones de voz

Created by
  • Haebom

Autor

Wenkang Han, Zhixiong Zeng, Jing Huang, Shu Jiang, Liming Zheng, Haibo Qiu, Chang Yao, Jingyuan Chen, Lin Ma

Describir

Este artículo propone UITron-Speech, un agente GUI basado en voz. Para superar las limitaciones de accesibilidad y usabilidad de los agentes GUI basados en texto existentes, desarrollamos el primer agente GUI de extremo a extremo que procesa directamente comandos de voz y capturas de pantalla en el dispositivo para predecir el comportamiento del usuario. Para abordar la insuficiencia de datos, sintetizamos un conjunto de datos de comandos de voz de alta calidad utilizando un modelo de texto a voz de hablante aleatorio y diseñamos una estrategia de entrenamiento de modalidad mixta para mitigar el problema de desequilibrio de modalidad de los modelos base preentrenados. Además, realizamos un análisis estadístico de la distribución del error de predicción de la base de la GUI y proponemos un método de mejora de la base de dos pasos sin entrenamiento para mitigar errores de posición menores. Amplios experimentos en varios puntos de referencia demuestran que UITron-Speech logra un rendimiento robusto y una excelente adaptabilidad, lo que destaca la viabilidad y el potencial de los agentes GUI basados en voz. El código y el conjunto de datos están disponibles en https://github.com/UITron-hub/UITron-Speech .

Takeaways, Limitations

Takeaways:
Demuestra la viabilidad y accesibilidad de los agentes GUI basados en voz.
Presentar estrategias efectivas de síntesis de datos y capacitación para abordar problemas de escasez de datos.
Proponer un método eficiente para mejorar los errores de conexión a tierra de la GUI.
Presentando nuevas posibilidades para una interacción humano-computadora más conveniente e inteligente.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método presentado en este artículo.
Es necesaria una evaluación de la robustez en diversos entornos de habla y lenguaje.
Se necesitan evaluaciones del rendimiento e investigaciones sobre la experiencia del usuario en entornos de uso reales.
Se requiere verificación de aplicabilidad para GUI complejas o varios tipos de GUI.
👍