Cet article présente SAGE, une nouvelle approche pour la création de chatbots émotionnellement intelligents. SAGE utilise des variables latentes pour contrôler le comportement à long terme lors de la génération de conversations. Au cœur de cette approche se trouve la chaîne état-action (SAC), qui optimise le réglage fin du modèle de langage standard en introduisant des variables latentes pour encapsuler les états émotionnels et les stratégies de conversation entre les tours de conversation. Lors de l'inférence, ces variables sont générées avant chaque réponse, permettant un contrôle précis de la progression de la conversation tout en préservant les schémas d'interaction naturels. Nous introduisons également un pipeline d'auto-amélioration qui utilise la recherche par arbre de dialogue, la modélisation des récompenses basée sur la méthode LLM et le réglage fin axé sur les objectifs pour optimiser les chemins de conversation. Les résultats expérimentaux montrent que les modèles entraînés avec cette méthode obtiennent de meilleurs résultats sur les indicateurs d'intelligence émotionnelle tout en conservant leur robustesse sur la méthode LLM. La nature discrète des variables latentes facilite les stratégies de recherche et fournit une base pour l'application de l'apprentissage par renforcement aux systèmes conversationnels, où l'apprentissage peut se faire au niveau de l'état plutôt qu'au niveau du jeton.