Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Améliorer le dialogue personnalisé à plusieurs tours avec la récompense de curiosité

Created by
  • Haebom

Auteur

Yanming Wan, Jiaxing Wu, Marwa Abdulhai, Lior Shani, Natasha Jaques

Contour

Dans cet article, nous présentons une nouvelle méthode pour améliorer les interactions personnalisées des agents conversationnels, basée sur des modèles de langage à grande échelle (MLH). Les méthodes existantes basées sur l'apprentissage par renforcement (MLR) se concentrent sur la convivialité et la sécurité, mais ne parviennent pas à générer des conversations empathiques, adaptatives et personnalisées. Dans cet article, nous proposons une méthode qui intègre des récompenses intrinsèques basées sur la curiosité dans des MLR multi-tours basés sur des modèles d'utilisateurs. Cela permet à l'agent LLM d'inférer activement les caractéristiques des utilisateurs et d'optimiser les conversations afin d'améliorer la précision du modèle, offrant ainsi des interactions plus personnalisées. Grâce à des expérimentations dans des environnements de recommandation et d'entraînement conversationnels, nous démontrons des performances de personnalisation et de généralisation supérieures à celles des MLR existants, tout en préservant la qualité des conversations.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour améliorer le niveau de personnalisation des agents conversationnels basés sur LLM en tirant parti des modèles d'utilisateurs et des récompenses basées sur la curiosité.
Surmonter les limites du RLHF existant et parvenir à une personnalisation efficace même avec des informations utilisateur limitées.
Vérification expérimentale des performances améliorées de personnalisation et de généralisation dans la recommandation et la formation conversationnelles.
Suggère le potentiel de développement d’agents conversationnels plus empathiques, adaptatifs et immersifs.
Limitations:
L’efficacité de la méthode proposée n’a été vérifiée que dans des domaines spécifiques (recommandation conversationnelle, éducation), et des recherches supplémentaires sont nécessaires sur sa généralisabilité à d’autres domaines.
En raison de la forte dépendance à la précision du modèle utilisateur, les erreurs dans le modèle utilisateur peuvent affecter les performances de l'agent.
Des recherches supplémentaires pourraient être nécessaires sur la conception et le réglage des récompenses basées sur la curiosité.
Une expérimentation et une évaluation approfondies sur une variété de types et de caractéristiques d’utilisateurs sont nécessaires.
👍