[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Recuperación fuera de distribución con política inversa de puntos clave centrada en objetos para el aprendizaje por imitación visomotora

Created by
  • Haebom

Autor

George Jiayuan Gao, Tianyu Li, Nadia Figueroa

Describir

En este artículo, proponemos un marco de recuperación centrada en objetos (OCR) para abordar los desafíos de las situaciones fuera de distribución (OOD) en el aprendizaje de políticas visomotoras. Mientras que los métodos actuales de replicación de acciones (BC) dependen en gran medida de una gran cantidad de datos etiquetados y fallan en condiciones espaciales desconocidas, la OCR aprende una política de recuperación que consiste en una política inversa inferida a partir de los gradientes de la variedad de puntos clave del objeto de los datos de entrenamiento originales sin recopilar datos adicionales. Esta política de recuperación actúa como un simple complemento a cualquier política de BC visomotora de referencia, independientemente del método específico, y guía al sistema de vuelta a la distribución de entrenamiento para garantizar el éxito de la tarea incluso en situaciones OOD. Tanto en simulaciones como en experimentos con robots reales, demostramos una mejora de hasta un 77,7 % con respecto a la política de referencia en OOD, y también demostramos la capacidad de la OCR para recopilar demostraciones de forma autónoma para el aprendizaje continuo. Argumentamos que este marco representa un avance hacia la mejora de la robustez de las políticas visomotoras en entornos reales.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo marco para mejorar la solidez de las políticas visomotoras en situaciones de OOD.
Mejore el rendimiento de OOD aprovechando los datos existentes sin recopilar datos adicionales.
Extensibilidad que se puede aplicar como un módulo adicional a la política de BC existente.
Presentando la posibilidad de recolección autónoma de demos para aprendizaje continuo.
Eficacia verificada mediante simulación y experimentos con robots reales.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Necesidad de evaluar la aplicabilidad a diversos objetos y tareas.
Es necesario analizar el coste computacional y la eficiencia de las políticas de recuperación del aprendizaje.
Potencial de degradación del rendimiento en entornos complejos del mundo real.
👍