Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Un sous-objectif à la fois : généralisation à zéro coup aux exigences arbitraires de la logique temporelle linéaire dans l'apprentissage par renforcement multitâche

Created by
  • Haebom

Auteur

Zijian Guo, Ilker I\c{s}{\i}k, SM Sabbir Ahmad, Wenchao Li

Contour

Cet article propose GenZ-LTL, une nouvelle méthode utilisant la logique temporelle linéaire (LTL) pour résoudre le problème de généralisation de l'apprentissage par renforcement (RL) avec des objectifs de tâches complexes et chronophages, ainsi que des contraintes de sécurité. Pour surmonter les limites des méthodes existantes, qui peinent à gérer des tâches imbriquées à long terme et des contraintes de sécurité, et ne parviennent pas à trouver des alternatives lorsque les sous-objectifs sont inatteignables, GenZ-LTL exploite la structure des automates de Büchi pour décomposer les spécifications des tâches LTL en une série de sous-objectifs d'atteinte-évitement. Contrairement aux méthodes conventionnelles qui conditionnent la séquence des sous-objectifs, GenZ-LTL réalise une généralisation à zéro coup en résolvant les sous-objectifs un par un à l'aide d'une formulation RL sûre . De plus, elle introduit une nouvelle technique de réduction des observations induite par les sous-objectifs pour atténuer la complexité exponentielle des combinaisons sous-objectif-état sous des hypothèses réalistes. Les résultats expérimentaux démontrent que GenZ-LTL surpasse significativement les méthodes existantes en généralisation à zéro coup.

Takeaways, Limitations

Takeaways:
Nous présentons GenZ-LTL, une nouvelle méthode qui permet une généralisation sans prise de vue pour les spécifications LTL.
Gestion des spécifications de tâches LTL complexes grâce à la décomposition des sous-objectifs basée sur l'automatisation Büchi.
Améliorer les performances de généralisation à zéro coup en résolvant les sous-objectifs un par un.
Réduction de la complexité grâce à des techniques de réduction d'observation induites par des sous-objectifs.
Il a été prouvé expérimentalement qu'il offre des performances de généralisation à zéro coup supérieures à celles des méthodes existantes.
Limitations:
Un examen plus approfondi des hypothèses réalistes de la technique de réduction des observations induite par les sous-objectifs proposée est nécessaire.
D’autres expériences sont nécessaires pour étudier les performances de généralisation dans divers environnements RL.
Dégradation possible des performances pour certains types de spécifications LTL (bien que cela ne soit pas explicitement indiqué, il peut être difficile de garantir une généralisation parfaite à toutes les spécifications LTL).
👍