Dans cet article, nous présentons une nouvelle méthode pour améliorer les interactions personnalisées des agents conversationnels, basée sur des modèles de langage à grande échelle (MLH). Les méthodes existantes basées sur l'apprentissage par renforcement (MLR) se concentrent sur la convivialité et la sécurité, mais ne parviennent pas à générer des conversations empathiques, adaptatives et personnalisées. Dans cet article, nous proposons une méthode qui intègre des récompenses intrinsèques basées sur la curiosité dans des MLR multi-tours basés sur des modèles d'utilisateurs. Cela permet à l'agent LLM d'inférer activement les caractéristiques des utilisateurs et d'optimiser les conversations afin d'améliorer la précision du modèle, offrant ainsi des interactions plus personnalisées. Grâce à des expérimentations dans des environnements de recommandation et d'entraînement conversationnels, nous démontrons des performances de personnalisation et de généralisation supérieures à celles des MLR existants, tout en préservant la qualité des conversations.