Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

DeGuV : Apprentissage par renforcement visuel guidé par la profondeur pour la généralisation et l'interprétabilité dans la manipulation

Created by
  • Haebom

Auteur

Tien Pham, Xinyun Chi, Khang Nguyen, Manfred Huber, Angelo Cangelosi

Contour

Cet article présente un nouveau cadre, DeGuV, visant à résoudre le problème de la généralisation des compétences acquises par les agents d'apprentissage par renforcement (RL) sur les entrées visuelles à de nouveaux environnements. DeGuV utilise un réseau de masques apprenables pour générer un masque à partir d'informations de profondeur qui ne conserve que les informations visuelles importantes et supprime les pixels inutiles. Cela permet à l'agent de se concentrer sur les caractéristiques clés, améliorant ainsi sa robustesse lors de l'augmentation des données. De plus, il intègre l'apprentissage contrastif et stabilise l'estimation de la valeur Q lors de l'augmentation, améliorant ainsi l'efficacité de l'échantillonnage et la stabilité de l'apprentissage. L'évaluation sur le benchmark RL-ViGen à l'aide du robot Franka Emika démontre que DeGuV surpasse les méthodes de pointe en termes de généralisation et d'efficacité de l'échantillonnage lors du transfert de la simulation à la réalité sans prise de vue, tout en améliorant l'interprétabilité en mettant en évidence les régions les plus pertinentes de l'entrée visuelle.

Takeaways, Limitations

Takeaways:
Nous présentons DeGuV, un nouveau cadre qui améliore simultanément les performances de généralisation et l'efficacité d'échantillonnage des agents d'apprentissage par renforcement.
Se concentrer sur les informations visuelles importantes et améliorer la robustesse à l'augmentation des données avec un réseau de masques apprenables.
Amélioration de l'efficacité des échantillons et de la stabilité de la formation grâce à l'apprentissage contrastif et à la stabilisation de l'estimation de la valeur Q.
Simulation zéro coup : permet d'atteindre des performances de pointe dans les transitions du monde réel.
Améliorez l’interprétabilité en mettant en évidence les zones importantes dans l’entrée visuelle.
Limitations:
Seuls les résultats d’évaluation pour le benchmark RL-ViGen sont présentés, et des recherches supplémentaires sont nécessaires pour déterminer les performances de généralisation pour d’autres benchmarks ou tâches.
Manque de description détaillée de la conception et de l'optimisation des réseaux de masques apprenables.
Des résultats expérimentaux supplémentaires sont nécessaires pour déterminer l’applicabilité et l’évolutivité dans des environnements robotiques réels.
👍