Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Rêver de discuter : apprentissage par renforcement basé sur un modèle pour les dialogues avec modélisation des croyances des utilisateurs

Created by
  • Haebom

Auteur

Yue Zhao, Xiaoyu Wang, Dan Wang, Zhonglin Jiang, Qingqing Gu, Teng Chen, Ningyuan Xi, Jinxian Qu, Yong Chen, Luo Ji

Contour

Cet article applique des modèles de monde, largement utilisés en robotique, dans les jeux et la conduite autonome, au traitement du langage naturel, et plus particulièrement aux systèmes conversationnels. Nous construisons un modèle de monde conversationnel pour prédire les émotions, les sentiments, les intentions et les énoncés futurs des utilisateurs. Nous définissons un processus de décision markovien partiellement observable (POMDP) ​​pour modéliser les émotions, les sentiments et les intentions sous forme de croyances des utilisateurs, et proposons une méthode pour résoudre les goulots d'étranglement informationnels en les maximisant. Sur la base de cette modélisation des croyances des utilisateurs, nous appliquons un cadre d'apprentissage par renforcement basé sur un modèle au système conversationnel, présentant un nouveau cadre appelé DreamCUB. Les résultats expérimentaux démontrent que le modèle de monde conversationnel pré-entraîné atteint des performances de pointe en matière de classification des émotions et d'identification des sentiments. De plus, l'entraînement combiné des modèles de politique, de critique et de monde conversationnel améliore la qualité conversationnelle. Une analyse plus approfondie démontre que la méthode proposée maintient un équilibre exploration-exploitation approprié et présente une excellente transférabilité à des scénarios hors domaine, tels que les conversations empathiques.

Takeaways, Limitations_

Takeaways:
Nous présentons un nouveau cadre (DreamCUB) qui peut prédire et modéliser efficacement les émotions, les sentiments et les intentions des utilisateurs en appliquant un modèle mondial à un système conversationnel.
Atteindre des performances de pointe en matière de classification des émotions et d’identification des sentiments.
Maintenir le bon équilibre entre l’amélioration de la qualité des conversations et l’exploration et l’exploitation.
Excellentes performances de transfert vers des scénarios hors domaine.
Limitations:
Manque de détails sur la mise en œuvre réelle et l'évolutivité du framework DreamCUB présenté dans cet article.
Une validation supplémentaire des performances de généralisation sur différents types et échelles de conversation est nécessaire.
Manque de discussion sur les limites et les directions d’amélioration de la modélisation des croyances des utilisateurs basée sur POMDP.
Manque de description détaillée des algorithmes spécifiques et des paramètres pour les stratégies de maximisation des goulots d'étranglement de l'information.
👍