En este artículo, presentamos un nuevo método para mejorar las interacciones personalizadas de agentes conversacionales basadas en modelos lingüísticos a gran escala (LLM). Los métodos actuales basados en aprendizaje por refuerzo (RLHF) se centran en la usabilidad y la seguridad, pero no son eficaces para generar conversaciones empáticas, adaptativas y personalizadas. En este artículo, proponemos un método que integra recompensas intrínsecas basadas en la curiosidad en RLHF multironda basados en modelos de usuario. Esto permite al agente LLM inferir activamente las características del usuario y optimizar las conversaciones para mejorar la precisión del modelo de usuario, proporcionando así interacciones más personalizadas. Mediante experimentos en entornos de recomendación y entrenamiento conversacional, demostramos un mejor rendimiento de personalización y generalización en comparación con los RLHF existentes, manteniendo la calidad de la conversación.