[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Récupération hors distribution avec politique inverse de point clé centrée sur l'objet pour l'apprentissage par imitation visuomotrice

Created by
  • Haebom

Auteur

George Jiayuan Gao, Tianyu Li, Nadia Figueroa

Contour

Dans cet article, nous proposons un cadre de récupération centrée sur l'objet (OCR) pour relever les défis des situations hors distribution (OOD) dans l'apprentissage des politiques visuomotrices. Alors que les méthodes de réplication d'actions (BC) existantes s'appuient fortement sur une grande quantité de données étiquetées et échouent dans des conditions spatiales inhabituelles, l'OCR apprend une politique de récupération consistant en une politique inverse déduite des gradients de la variété des points clés de l'objet des données d'apprentissage originales, sans collecte de données supplémentaires. Cette politique de récupération agit comme un simple complément à toute politique BC visuomotrice de base, quelle que soit la méthode utilisée, et ramène le système à la distribution d'apprentissage afin de garantir la réussite de la tâche, même dans les situations hors distribution. Dans les simulations et les expériences sur robot réel, nous démontrons une amélioration allant jusqu'à 77,7 % par rapport à la politique de base en OOD, et démontrons également la capacité de l'OCR à collecter de manière autonome des démos pour un apprentissage continu. Nous soutenons que ce cadre représente une avancée vers l'amélioration de la robustesse des politiques visuomotrices en environnements réels.

Takeaways, Limitations

Takeaways:
Un nouveau cadre est présenté pour améliorer la robustesse des politiques visuomotrices dans les situations OOD.
Améliorez les performances OOD en exploitant les données existantes sans collecter de données supplémentaires.
Extensibilité pouvant être appliquée comme module supplémentaire à la politique BC existante.
Présentation de la possibilité de collecte autonome de démos pour un apprentissage continu.
Efficacité vérifiée par simulation et expériences robotiques réelles.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Il est nécessaire d’évaluer l’applicabilité à divers objets et tâches.
Une analyse du coût informatique et de l’efficacité des politiques de récupération des apprentissages est nécessaire.
Potentiel de dégradation des performances dans des environnements complexes du monde réel.
👍