Cet article explore le potentiel et les limites de l'automatisation des revues de littérature à l'aide de modèles linguistiques à grande échelle (MLL). Si les LLM offrent le potentiel d'automatiser le processus de revue de littérature, y compris la collecte, l'organisation et la synthèse des documents, leur efficacité pour automatiser des revues de littérature complètes et fiables reste incertaine. Cette étude présente un cadre d'évaluation automatique des performances des LLM dans trois tâches principales : la génération de références, la synthèse de la littérature et la rédaction de revues de littérature. Nous évaluons le taux d'hallucination des références générées et introduisons une mesure d'évaluation multidimensionnelle qui mesure la couverture sémantique et la cohérence factuelle des résumés et de la rédaction par rapport à ceux générés par des humains. Les résultats expérimentaux montrent que même les modèles les plus récents, malgré les avancées récentes, génèrent des références hallucinatoires. De plus, nous démontrons que les performances de différents modèles dans la rédaction de revues de littérature varient selon les disciplines.