Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SENSEI: Exploración semántica guiada por modelos fundamentales para aprender modelos del mundo versátiles

Created by
  • Haebom

Autor

Cansu Sancaktar, Christian Gumbsch, Andrii Zadaianchuk, Pavel Kolev, Georg Martius

Describir

En este artículo, proponemos un marco de exploración semánticamente sólida (SENSEI) como estrategia de exploración eficaz en el aprendizaje por refuerzo. Para superar las limitaciones de los métodos de motivación intrínseca existentes, que se limitan a interacciones de bajo nivel, utilizamos la señal de recompensa "interesante" obtenida de la anotación del modelo de lenguaje de visión (VLM). Mediante el aprendizaje por refuerzo basado en modelos, SENSEI aprende una política de exploración que maximiza simultáneamente la recompensa semántica y la incertidumbre. Demostramos que descubre diversas acciones significativas a partir de observaciones de imágenes y acciones de bajo nivel en simulaciones de robots y videojuegos. Esto proporciona una herramienta general para el aprendizaje del VLM, que se fortalece.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo enfoque para superar las limitaciones (interacción de bajo nivel) de los métodos de motivación intrínseca existentes.
Presentamos un método eficaz para inducir comportamientos significativos de alto nivel aprovechando VLM.
Combinando el aprendizaje de refuerzo basado en modelos y VLM para aprender con éxito diversas acciones significativas en un entorno simulado.
Proporciona direcciones importantes para la investigación del aprendizaje de refuerzo utilizando el cada vez más potente VLM.
Limitations:
Alta dependencia de las anotaciones de VLM. El rendimiento de SENSEI puede verse considerablemente afectado por el rendimiento de VLM.
Actualmente, sólo se ha evaluado en un entorno de simulación, por lo que se necesita más investigación sobre su transferibilidad a entornos robóticos reales.
Es necesario establecer criterios claros para definir y evaluar el comportamiento de alto nivel.
👍