Este artículo revisa sistemáticamente 23 estudios empíricos publicados entre 2017 y 2025 según las directrices PRISMA para analizar las limitaciones de la investigación existente sobre la evaluación de la experiencia del usuario (UX) de los sistemas de recomendación conversacional (CRS) y sugerir futuras direcciones de investigación. Específicamente, señalamos la escasez de investigación sobre la evaluación de la UX de los CRS adaptativos y los modelos de lenguaje a gran escala (LLM). Analizamos las definiciones de conceptos de UX, los métodos de medición, los dominios, la adaptabilidad y la influencia de los LLM. Descubrimos Limitations, incluido el predominio de la investigación de seguimiento, la escasa evaluación de los componentes emocionales de la UX por turnos y la escasa conexión entre los comportamientos adaptativos y los resultados de la UX. También destacamos los problemas con los CRS basados en LLM, como la opacidad epistemológica y la verbosidad de estos sistemas. Proponemos una síntesis estructurada de métricas de UX para desarrollar prácticas de evaluación de CRS más transparentes, atractivas y centradas en el usuario, un análisis comparativo de sistemas adaptativos y no adaptativos y una agenda orientada al futuro para la evaluación de UX que considere los LLM.