Cet article est la première revue systématique à examiner les avancées et les limites des modèles de langage à grande échelle (MLH) dans le domaine de la santé. Nous soulignons que les LH manquent encore des capacités d'inférence systématiques, transparentes et vérifiables, essentielles à la pratique clinique, et analysons la transition de la génération de réponses en une seule étape au développement de LHH spécifiquement conçus pour le raisonnement médical. Nous proposons une taxonomie des techniques d'amélioration de l'inférence, classées par stratégies d'apprentissage (par exemple, apprentissage supervisé, réglage fin, apprentissage par renforcement) et mécanismes de test (par exemple, ingénierie des invites, systèmes multi-agents). Nous analysons l'application de ces techniques à diverses modalités de données (texte, images, code) et à des applications cliniques clés telles que le diagnostic, l'éducation et la planification des traitements. Nous examinons également l'évolution des critères d'évaluation, passant de simples mesures de précision à des évaluations sophistiquées de la qualité de l'inférence et de l'interprétabilité visuelle. En analysant 60 études clés publiées entre 2022 et 2025, nous identifions des défis critiques, tels que l'écart de crédibilité-plausibilité et la nécessité d'une inférence multimodale fondamentale, et suggérons des orientations futures pour construire une IA de santé efficace, robuste et sociotechniquement responsable.