Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprendizaje a partir de 10 demostraciones: aprendizaje de políticas generalizable y eficiente con marcos de asequibilidad orientados

Created by
  • Haebom

Autor

Krishan Rana, Jad Abou-Chakra, Sourav Garg, Robert Lee, Ian Reid, Niko Suenderhauf

Describir

Este artículo destaca que, si bien el aprendizaje por imitación permite un comportamiento robótico experto, presenta dificultades debido a la baja eficiencia de la muestra y una generalización limitada, lo que dificulta la realización de tareas a largo plazo con múltiples objetos. Los métodos existentes requieren numerosas demostraciones para abordar posibles variaciones de la tarea, lo que los hace costosos e imprácticos para aplicaciones reales. Este estudio introduce marcos de affordance orientados, una representación estructurada de espacios de estados y acciones, para mejorar la generalización espacial y de categorías, y entrenar políticas eficientemente con tan solo 10 demostraciones. Más importante aún, esta abstracción permite la generalización compositiva de subpolíticas entrenadas de forma independiente para abordar tareas a largo plazo con múltiples objetos. Para facilitar transiciones fluidas entre subpolíticas, introducimos el concepto de predicción de autoprogreso, derivado directamente de la duración de las demostraciones de entrenamiento. Experimentos en tres tareas reales que involucran interacciones multiobjeto de varios pasos demuestran que las políticas se generalizan robustamente a apariencias de objetos invisibles, formas geométricas y disposiciones espaciales, a pesar de la pequeña cantidad de datos, y alcanzan altas tasas de éxito sin depender de datos de entrenamiento extensos.

Takeaways, Limitations

Takeaways:
Demostramos que es posible un aprendizaje de políticas eficiente con solo una pequeña cantidad de demostraciones (10) utilizando el marco de affordance direccional.
Rendimiento de generalización mejorado dentro del espacio y las categorías.
Resolución de tareas multiobjeto a largo plazo mediante la generalización constructiva de subpolíticas entrenadas de forma independiente.
La predicción de autoprogreso permite transiciones fluidas entre subpolíticas.
Lograr altas tasas de éxito en tareas del mundo real y verificar el rendimiento de la generalización.
Limitations:
Sólo se presentan resultados experimentales para un número limitado de tareas del mundo real (tres).
Se necesitan más investigaciones para determinar qué tan bien se puede mantener el rendimiento de generalización en diferentes entornos y tareas.
Se necesitan más análisis sobre la precisión y confiabilidad de las predicciones de autoprogresión.
Falta de análisis del coste computacional y la complejidad del método propuesto.
👍