Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Dang Nguyen, Jian Chen, Yu Wang, Gang Wu, Namyong Park, Zhengmian Hu, Hanjia Lyu, Junda Wu, Ryan Aponte, Yu Lina Yao, Branislav Kveton, Thien Huu Nguyen, Trung Bui, Tianyi Zhou, Ryan A. Rossi, Franck Dernoncourt
Describir
Este artículo presenta un estudio exhaustivo de agentes de interfaz gráfica de usuario (GUI) a gran escala basados en modelos fundamentales. Los agentes GUI son sistemas automatizados que interactúan con sistemas digitales o aplicaciones de software en diversas plataformas, imitando comportamientos humanos como hacer clic, escribir y navegar. Este artículo categoriza puntos de referencia, métricas de evaluación, arquitecturas y métodos de aprendizaje para agentes GUI y propone un marco unificado que describe sus capacidades de percepción, razonamiento, planificación y acción. También identifica importantes desafíos pendientes y futuras direcciones, ayudando a investigadores y profesionales a comprender el progreso actual, las tecnologías, los puntos de referencia y los desafíos pendientes.
Takeaways, Limitations
•
Takeaways:
◦
Proporcionamos investigación y análisis integral en el campo del agente GUI.
◦
Presentamos un marco integrado para agentes GUI (percepción, razonamiento, planificación y acción).
◦
Proporciona una comprensión clara de los niveles tecnológicos actuales, los puntos de referencia y los desafíos pendientes.
◦
Sugerir futuras direcciones de investigación
•
Limitations:
◦
Este artículo no propone ni verifica experimentalmente un sistema de agente GUI específico. En cambio, se centra en sintetizar y analizar la investigación existente.
◦
Falta de discusión sobre las implicaciones éticas y sociales de los agentes GUI.
◦
Como se trata de un campo en rápido desarrollo, es difícil reflejar los nuevos resultados de investigación después de su publicación.