Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Du texte à la trajectoire : exploration de la représentation et de la décomposition de contraintes complexes dans l'apprentissage par renforcement sûr

Created by
  • Haebom

Auteur

Pusen Dong, Tianchen Zhu, Yue Qiu, Haoyi Zhou, Jianxin Li

Contour

Cet article présente une méthode d'apprentissage par renforcement sécurisé sous contraintes exprimées en langage naturel. Les méthodes existantes présentent la limitation de nécessiter la conception manuelle de fonctions de coût pour chaque contrainte. Dans cet article, nous proposons le traducteur de contraintes textuelles au niveau de la trajectoire (TTCT), qui génère automatiquement des fonctions de coût à l'aide de contraintes en langage naturel. TTCT apprend en combinant contraintes en langage naturel et trajectoires, et les résultats expérimentaux démontrent qu'il apprend des politiques avec des taux de violation inférieurs à ceux des fonctions de coût conçues manuellement. De plus, nous démontrons une capacité de transfert sans exécution, applicable aux environnements à contraintes variables.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode permettant de comprendre efficacement les contraintes du langage naturel et de former des agents d’apprentissage par renforcement sûrs.
L’apprentissage est possible uniquement avec des contraintes de langage naturel, sans avoir besoin de concevoir manuellement une fonction de coût.
Démontrer l'applicabilité à divers environnements grâce à la capacité de transfert zéro coup.
Atteindre des taux de violation inférieurs à ceux des méthodes existantes.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du TTCT.
Il faut évaluer la capacité à gérer des contraintes de langage naturel complexes ou ambiguës.
Une validation supplémentaire est nécessaire pour une application dans le monde réel.
👍