Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SAGE : Piloter la génération de dialogues avec une augmentation de l'état-action tenant compte du futur

Created by
  • Haebom

Auteur

Yizhe Zhang, Navdeep Jaitly

Contour

Cet article présente SAGE, une nouvelle approche pour la création de chatbots émotionnellement intelligents. SAGE utilise des variables latentes pour contrôler le comportement à long terme lors de la génération de conversations. Au cœur de cette approche se trouve la chaîne état-action (SAC), qui optimise le réglage fin du modèle de langage standard en introduisant des variables latentes pour encapsuler les états émotionnels et les stratégies de conversation entre les tours de conversation. Lors de l'inférence, ces variables sont générées avant chaque réponse, permettant un contrôle précis de la progression de la conversation tout en préservant les schémas d'interaction naturels. Nous introduisons également un pipeline d'auto-amélioration qui utilise la recherche par arbre de dialogue, la modélisation des récompenses basée sur la méthode LLM et le réglage fin axé sur les objectifs pour optimiser les chemins de conversation. Les résultats expérimentaux montrent que les modèles entraînés avec cette méthode obtiennent de meilleurs résultats sur les indicateurs d'intelligence émotionnelle tout en conservant leur robustesse sur la méthode LLM. La nature discrète des variables latentes facilite les stratégies de recherche et fournit une base pour l'application de l'apprentissage par renforcement aux systèmes conversationnels, où l'apprentissage peut se faire au niveau de l'état plutôt qu'au niveau du jeton.

Takeaways, Limitations

Takeaways:
Exploiter les variables latentes pour contrôler le comportement à long terme dans la génération de conversations
Améliorer les indicateurs d'intelligence émotionnelle et maintenir de solides performances sur les benchmarks LLM
Stratégies de recherche et d'apprentissage par renforcement faciles à appliquer
Présentation des possibilités d'apprentissage au niveau de l'État
Limitations:
La nature discrète des variables latentes peut ne pas convenir à tous les types de conversations.
Des recherches supplémentaires sont nécessaires sur l’efficacité et les performances de généralisation des pipelines d’auto-amélioration.
Il est nécessaire d'évaluer les performances dans des environnements réels et de vérifier l'applicabilité à différents types de conversations.
👍