[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Aligner les humains et les robots grâce à l'apprentissage par renforcement à partir de commentaires humains implicites

Created by
  • Haebom

Auteur

Suzie Kim, Hye-Bin Shin, Seong-Whan Lee

Contour

Dans cet article, nous proposons un cadre d'apprentissage par renforcement basé sur le retour d'information humain implicite (RLIHF) utilisant l'électroencéphalographie (EEG) pour surmonter les limites de l'apprentissage par renforcement (RL) conventionnel, qui peine à apprendre des politiques efficaces dans des environnements à récompenses rares. Nous utilisons les potentiels liés à l'erreur (ErrP) pour fournir un retour d'information implicite continu sans intervention explicite de l'utilisateur, et transformons les signaux EEG bruts en composantes de récompense probabilistes via un décodeur pré-entraîné afin de permettre un apprentissage efficace des politiques, même dans des environnements à récompenses externes rares. Nous évaluons la méthode proposée sur des tâches d'évitement d'obstacles et de manipulation d'objets à l'aide d'un bras robotique Kinova Gen2 dans un environnement de simulation basé sur le moteur physique MuJoCo. Nous montrons que l'agent entraîné avec le retour d'information EEG décodé atteint des performances comparables à l'agent entraîné avec des récompenses denses conçues manuellement. Cela démontre le potentiel de l'exploitation du retour d'information neuronal implicite pour un apprentissage par renforcement évolutif et centré sur l'humain en robotique interactive.

Takeaways, Limitations

Takeaways:
Un nouveau cadre RLHF pour résoudre le problème de la récompense rare est présenté.
Permet une interaction naturelle en exploitant les commentaires implicites sans intervention explicite de l'utilisateur
Parvenir à un apprentissage politique efficace grâce à la rétroaction implicite basée sur l'EEG
Présentation du potentiel de l'apprentissage par renforcement évolutif et centré sur l'humain dans le domaine de la robotique interactive
Limitations:
Actuellement évalué uniquement dans des environnements de simulation, une vérification des performances dans des environnements de robots réels est requise.
Des recherches supplémentaires sont nécessaires sur la précision et la performance de généralisation de l'interprétation des signaux EEG.
Il est nécessaire d'évaluer les performances de généralisation pour différentes tâches et différents utilisateurs.
La complexité et le coût de la collecte et du traitement des données EEG doivent être pris en considération.
👍