Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Descubrimiento de habilidades en un mundo abierto a partir de demostraciones no segmentadas

Created by
  • Haebom

Autor

Jingwen Deng, Zihao Wang, Shaofei Cai, Anji Liu, Yitao Liang

Describir

Este artículo presenta un método de aprendizaje de habilidades que combina técnicas fundamentales para desarrollar agentes capaces de realizar diversas tareas en entornos de mundo abierto. A diferencia de los métodos existentes que se basan en el muestreo de secuencias o el etiquetado humano, desarrollamos un enfoque basado en el aprendizaje autosupervisado que segmenta videos de demostración en línea largos y no estructurados en una serie de segmentos semánticamente coherentes. Inspirados por la teoría de la segmentación de eventos cognitivos humanos, proponemos la Detección de Límites de Habilidad (SBD), un algoritmo de segmentación temporal de video sin anotaciones que detecta los límites de habilidad en los videos aprovechando los errores de predicción de modelos de predicción de acciones incondicionales preentrenados. Suponemos que un aumento significativo en el error de predicción indica un cambio en la habilidad que se está ejecutando. Experimentos con Minecraft muestran que los segmentos generados por SBD mejoran el rendimiento promedio de las políticas condicionales en un 63,7% y un 52,1% en tareas de habilidad atómica a corto plazo, y de los agentes jerárquicos en un 11,3% y un 20,8% en tareas a largo plazo. Este método puede entrenar a los agentes para que sigan instrucciones utilizando diversos videos de YouTube.

Takeaways, Limitations

Takeaways:
Utilización efectiva de vídeos demostrativos largos y no estructurados a través de una técnica de segmentación de vídeo basada en el aprendizaje autosupervisado.
El algoritmo SBD permite la detección automática de límites tecnológicos significativos sin anotaciones.
Los experimentos en Minecraft demuestran un rendimiento mejorado del agente tanto en tareas a corto como a largo plazo.
Sugerir la posibilidad de que el agente aprenda mediante el uso de datos de vídeos en línea como YouTube.
Limitations:
El rendimiento de SBD puede depender del rendimiento de modelos de predicción de acciones previamente entrenados.
Estos resultados son específicos del entorno de Minecraft y se necesita más investigación para determinar su generalización a otros entornos.
Se necesita una validación adicional para determinar si la detección de límites tecnológicos basada en errores de predicción es efectiva en todo tipo de tareas y entornos.
👍