Pour pallier les lacunes des systèmes de recommandation explicatifs existants, cet article propose un cadre d'optimisation dynamique des interactions basé sur un feedback de type humain. Ce cadre utilise un modèle de langage à grande échelle (MLL) comme simulateur humain pour prédire le feedback humain et améliore les capacités de compréhension du langage et de raisonnement logique du MLL grâce à une méthode de notation des récompenses personnalisée. De plus, l'optimisation de Pareto est introduite pour résoudre le compromis entre la qualité de l'explication sous différents angles, et un pipeline d'optimisation hors politique est utilisé pour entraîner efficacement le modèle. Les résultats expérimentaux démontrent que la méthode proposée surpasse les méthodes existantes.