Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

COLLAGE : Recherche adaptative basée sur la fusion pour un apprentissage politique augmenté

Created by
  • Haebom

Auteur

Sateesh Kumar, Shivin Dass, Georgios Pavlakos, Roberto Mart au Mart à

Contour

Cet article aborde le problème de la récupération de données dans l'apprentissage par imitation en quelques coups. Les méthodes existantes utilisent une heuristique de distance à une seule caractéristique pour récupérer les données, en supposant que la meilleure démonstration est celle qui se rapproche le plus de la démonstration cible dans l'espace visuel, sémantique ou d'action. Cependant, cette approche ne capture qu'une partie des informations pertinentes et peut introduire des démonstrations néfastes, comme la récupération de données de tâches sans rapport en raison de la similitude des scènes ou la sélection d'actions similaires dans des tâches ayant des cibles différentes. Dans cet article, nous présentons une méthode appelée COLLAGE (Collective Data Aggregation) pour l'apprentissage par imitation en quelques coups. Cette méthode utilise un mécanisme adaptatif de fusion tardive pour guider la sélection de démonstrations pertinentes en fonction d'une combinaison de plusieurs indices spécifiques à la tâche. COLLAGE utilise une seule caractéristique (par exemple, l'apparence, la forme ou la similarité linguistique) pour pondérer des sous-ensembles présélectionnés de l'ensemble de données, en attribuant des pondérations en fonction de la capacité d'une politique entraînée sur chaque sous-ensemble à prédire la tâche dans la démonstration cible. Ces pondérations sont ensuite utilisées lors de l'apprentissage des politiques pour réaliser un échantillonnage d'importance, en échantillonnant les données de manière plus ou moins dense ou plus éparse en fonction de la pertinence estimée. COLLAGE est général et indépendant des caractéristiques, ce qui lui permet de combiner n'importe quel nombre de sous-ensembles sélectionnés par n'importe quelle heuristique de recherche et d'identifier ceux qui offrent le plus d'avantages pour la tâche cible. Lors d'expériences approfondies, COLLAGE surpasse les méthodes de recherche et d'apprentissage multitâche de pointe de 5,1 % sur dix tâches de simulation et de 16,6 % sur six tâches de recherche réelles sur le jeu de données DROID à grande échelle.

Takeaways, Limitations

Takeaways:
Nous améliorons les performances de récupération de données dans l'apprentissage par imitation à petite échelle grâce à un mécanisme de post-fusion adaptatif exploitant plusieurs fonctionnalités.
Nous surmontons les limites des méthodes existantes basées sur une seule fonctionnalité et résolvons le problème de la sélection de données non pertinentes.
Il augmente l’applicabilité à une variété d’ensembles de données et de tâches de manière générale et indépendante des fonctionnalités.
Nous démontrons des améliorations de performances par rapport aux méthodes existantes dans des environnements de simulation et réels.
Limitations:
La complexité du mécanisme de fusion tardive adaptative peut augmenter les coûts de calcul.
Le choix d'une seule fonctionnalité peut avoir un impact sur les performances. Trouver la combinaison optimale de fonctionnalités reste un défi.
Des recherches supplémentaires pourraient être nécessaires pour évaluer son efficacité sur de grands ensembles de données.
👍