Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DeGuV: Aprendizaje de refuerzo visual guiado por profundidad para la generalización y la interpretabilidad en la manipulación

Created by
  • Haebom

Autor

Tien Pham, Xinyun Chi, Khang Nguyen, Manfred Huber, Angelo Cangelosi

Describir

Este artículo presenta un nuevo marco, DeGuV, para abordar el problema de generalizar las habilidades aprendidas de los agentes de aprendizaje por refuerzo (RL) sobre entradas visuales a nuevos entornos. DeGuV utiliza una red de máscaras aprendible para generar una máscara a partir de información de profundidad que retiene únicamente la información visual importante y elimina los píxeles innecesarios. Esto permite al agente centrarse en las características clave, mejorando la robustez bajo el aumento de datos. Además, incorpora aprendizaje contrastivo y estabiliza la estimación del valor Q bajo el aumento, mejorando aún más la eficiencia de la muestra y la estabilidad del entrenamiento. La evaluación en el banco de pruebas RL-ViGen utilizando el robot Franka Emika demuestra que DeGuV supera a los métodos de vanguardia tanto en generalización como en eficiencia de la muestra en la transferencia de simulación a realidad de disparo cero, a la vez que mejora la interpretabilidad al resaltar las regiones más relevantes de la entrada visual.

Takeaways, Limitations

Takeaways:
Presentamos DeGuV, un nuevo marco que mejora simultáneamente el rendimiento de generalización y la eficiencia de muestra de los agentes de aprendizaje de refuerzo.
Centrarse en la información visual importante y mejorar la robustez del aumento de datos con una red de máscaras que se puede aprender.
Mejora de la eficiencia de la muestra y la estabilidad del entrenamiento a través del aprendizaje contrastivo y la estabilización de la estimación del valor Q.
Simulación de disparo cero: logra un rendimiento de última generación en transiciones del mundo real.
Mejore la interpretabilidad resaltando áreas importantes en la entrada visual.
Limitations:
Sólo se presentan los resultados de la evaluación del punto de referencia RL-ViGen, y se necesita más investigación para determinar el rendimiento de generalización para otros puntos de referencia o tareas.
Falta de descripción detallada del diseño y optimización de redes de máscaras aprendibles.
Se necesitan resultados experimentales adicionales para determinar la aplicabilidad y escalabilidad en entornos robóticos reales.
👍