Para superar las deficiencias de los sistemas de recomendación explicables existentes, este artículo propone un marco de optimización de interacción dinámica basado en retroalimentación similar a la humana. Este marco utiliza un modelo de lenguaje a gran escala (LLM) como simulador humano para predecir la retroalimentación humana y mejora la comprensión del lenguaje y las capacidades de razonamiento lógico del LLM mediante un método de puntuación de recompensas personalizado. Además, se introduce la optimización de Pareto para abordar el equilibrio entre la calidad de la explicación desde diversas perspectivas, y se utiliza un proceso de optimización fuera de política para lograr un aprendizaje eficiente del modelo. Los resultados experimentales demuestran que el método propuesto supera a los métodos existentes.