[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Alineación de humanos y robots mediante aprendizaje de refuerzo a partir de retroalimentación humana implícita

Created by
  • Haebom

Autor

Suzie Kim, Hye-Bin Shin, Seong-Whan Lee

Describir

En este artículo, proponemos un marco de aprendizaje por refuerzo basado en retroalimentación humana implícita (RLIHF) mediante electroencefalografía (EEG) para superar las limitaciones del aprendizaje por refuerzo (RL) convencional, que presenta dificultades para aprender políticas efectivas en entornos con escasa recompensa. Utilizamos potenciales relacionados con errores (ErrP) para proporcionar retroalimentación implícita continua sin intervención explícita del usuario y transformamos las señales de EEG sin procesar en componentes de recompensa probabilística mediante un decodificador preentrenado para permitir un aprendizaje de políticas efectivo incluso en entornos con escasa recompensa externa. Evaluamos el método propuesto en tareas de evitación de obstáculos y manipulación de objetos utilizando un brazo robótico Kinova Gen2 en un entorno de simulación basado en el motor de física MuJoCo. Demostramos que el agente entrenado con retroalimentación de EEG decodificada logra un rendimiento comparable al del agente entrenado con recompensas densas diseñadas manualmente. Esto demuestra el potencial de aprovechar la retroalimentación neuronal implícita para un aprendizaje por refuerzo escalable y centrado en el ser humano en robótica interactiva.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo marco RLHF para resolver el problema de la recompensa escasa.
Permite la interacción natural aprovechando la retroalimentación implícita sin intervención explícita del usuario.
Lograr un aprendizaje de políticas eficaz mediante retroalimentación implícita basada en EEG
Presentando el potencial del aprendizaje de refuerzo escalable y centrado en el ser humano en el campo de la robótica interactiva
Limitations:
Actualmente se evalúa únicamente en entornos de simulación, se requiere verificación del rendimiento en entornos de robots reales.
Se necesitan más investigaciones sobre la precisión y el rendimiento de generalización de la interpretación de la señal EEG.
Necesidad de evaluar el rendimiento de generalización para diferentes tareas y usuarios
Se debe tener en cuenta la complejidad y el coste de la recopilación y el procesamiento de datos EEG.
👍