[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Dirección de políticas latentes con modelos mundiales preentrenados, independientes de la encarnación

Created by
  • Haebom

Autor

Yiqi Wang, Mrinal Verghese, Jeff Schneider

Describir

Este artículo es un estudio para resolver la dificultad de la recopilación de datos en el aprendizaje de la política de control visomotor de los robots. Si bien el método de aprendizaje por imitación existente requiere una gran cantidad de datos de entrenamiento, este estudio sugiere un método para reducir la cantidad de recopilación de datos utilizando varios tipos de datos (robot, humano). La idea clave es, en primer lugar, aprender el modelo del mundo (WM) con varios tipos de datos utilizando flujo óptico y afinarlo con una pequeña cantidad de datos sobre el robot objetivo. En segundo lugar, mejorar el resultado de la política de replicación de acciones a través de la técnica Latent Policy Steering (LPS) para encontrar una mejor secuencia de acciones en el espacio latente del WM. Los resultados experimentales muestran que el rendimiento de la política aprendida con datos limitados (30 demostraciones: más del 50 %, 50 demostraciones: más del 20 %) mejora significativamente cuando se combina con el WM preentrenado utilizando el conjunto de datos de encarnación Open X o datos de juego humano.

Takeaways, Limitations

Takeaways:
Demostramos que aprovechar diversas formas de datos (robots, humanos) puede reducir significativamente la cantidad de datos necesarios para aprender políticas de control visual-motor de los robots.
Demostramos que las técnicas WM y LPS basadas en flujo óptico pueden lograr un alto rendimiento incluso con datos limitados.
La eficacia del método propuesto se verifica mediante experimentos reales con robots.
Limitations:
El rendimiento puede verse afectado por la calidad y cantidad de datos previos al entrenamiento, como el conjunto de datos de encarnación Open X o los datos de juego humano.
Tal vez se necesiten más investigaciones sobre la eficiencia de exploración espacial latente de la técnica LPS.
Es necesaria una evaluación más profunda del desempeño de la generalización en diferentes tareas y entornos.
👍