Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Asignación de créditos basada en búsquedas para el aprendizaje de refuerzo basado en preferencias fuera de línea

Created by
  • Haebom

Autor

Xiancheng Gao, Yufeng Shi, Wengang Zhou, Houqiang Li

Describir

Este artículo presenta la Ponderación de Preferencias Basada en Búsqueda (SPW), un novedoso método que integra dos tipos de retroalimentación humana (demostraciones de expertos y preferencias) para abordar los desafíos del diseño de funciones de recompensa en el aprendizaje de refuerzo offline. Para cada transición dentro de una trayectoria etiquetada con preferencias, SPW encuentra el par estado-acción más similar a partir de las demostraciones de expertos y deriva directamente ponderaciones de importancia paso a paso basadas en sus puntuaciones de similitud. Estas ponderaciones guían el aprendizaje de preferencias estándar, lo que permite una asignación precisa de créditos, un desafío al que se enfrentan los métodos existentes. Demuestra un rendimiento superior al de los métodos existentes en una tarea de manipulación de robots.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para mejorar el rendimiento del aprendizaje de refuerzo fuera de línea integrando eficazmente dos tipos de retroalimentación humana: demostración de expertos y preferencia.
Resolver el problema de asignación de créditos que los métodos existentes no podían resolver mediante la ponderación basada en la similitud.
Demostró un excelente desempeño en tareas de manipulación de robots.
Limitations:
El rendimiento de SPW puede depender de la calidad y cantidad de datos de demostración de expertos.
Dado que el rendimiento puede variar según el método de medición de similitud, es importante encontrar el método de medición de similitud óptimo.
Se necesita más investigación para determinar si el método propuesto es aplicable a todos los tipos de problemas de aprendizaje de refuerzo.
👍