Este artículo explora el potencial y las limitaciones de automatizar las revisiones bibliográficas mediante modelos lingüísticos a gran escala (LLM). Si bien los LLM tienen el potencial de automatizar el proceso de revisión bibliográfica, incluyendo la recopilación, organización y resumen de documentos, su eficacia para automatizar revisiones bibliográficas exhaustivas y fiables sigue siendo incierta. Este estudio presenta un marco para evaluar automáticamente el rendimiento de los LLM en tres tareas fundamentales: generar referencias, resumir la literatura y redactar revisiones bibliográficas. Evaluamos la tasa de alucinación de las referencias generadas e introducimos una métrica de evaluación multidimensional que mide la cobertura semántica y la coherencia fáctica de los resúmenes y la redacción en comparación con los generados por humanos. Los resultados experimentales muestran que incluso los modelos más modernos, a pesar de los avances recientes, generan referencias alucinatorias. Además, demostramos que el rendimiento de los diferentes modelos en la redacción de revisiones bibliográficas varía entre disciplinas.