Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Este artículo aborda el problema de aprender un modelo de agente que pueda percibir el entorno, predecir el futuro y actuar desde una perspectiva en primera persona, similar a la de los humanos. Los métodos existentes utilizan modelos que aprenden estas habilidades por separado, sin capturar las interrelaciones entre ellas e impidiendo el aprendizaje mutuo. Inspirados por el ciclo de percepción-acción humano, proponemos EgoAgent, un modelo de agente unificado que aprende simultáneamente representaciones, predicciones y acciones dentro de un único Transformador. EgoAgent modela explícitamente las dependencias causales y temporales entre estas habilidades al formular las tareas como secuencias de intersección de estados y acciones. Además, introduce una arquitectura conjunta de incrustación-acción-predicción con ramas de predictor y observador temporalmente asimétricas, lo que permite la optimización sinérgica en las tres capacidades. Evaluaciones exhaustivas de EgoAgent en tareas representativas como la clasificación de imágenes, la predicción de estados futuros egocéntricos y la predicción de acciones humanas 3D demuestran la superioridad del método propuesto. El código y los modelos entrenados están disponibles públicamente en https://github.com/zju3dv/EgoAgent .
Proponemos EgoAgent, un nuevo modelo de agente que integra capacidades cognitivas, predictivas y de acción.
◦
Aprendizaje e inferencia eficientes utilizando un único transformador
◦
Lograr una optimización sinérgica a través de predictores temporalmente asimétricos y ramas de observadores.
◦
Demostró un desempeño superior en diversas tareas, como clasificación de imágenes, predicción de estados futuros egocéntricos y predicción de movimiento humano en 3D.
◦
Garantizar la reproducibilidad y escalabilidad de la investigación mediante el acceso abierto al código y a los modelos entrenados.
•
Limitations:
◦
El rendimiento de EgoAgent puede estar limitado a tareas y conjuntos de datos específicos.
◦
Aumento potencial de los costos computacionales debido a la complejidad del modelo
◦
Se necesita más investigación sobre el rendimiento de la generalización en entornos del mundo real.
◦
Se necesitan más investigaciones para mejorar la interpretabilidad del modelo.