Este artículo es la primera revisión sistemática que examina los avances y las limitaciones de los modelos lingüísticos a gran escala (LLM) en el ámbito sanitario. Destacamos que los LLM aún carecen de las capacidades de inferencia sistemáticas, transparentes y verificables esenciales para la práctica clínica, y analizamos la transición desde la generación de respuestas en un solo paso hasta el desarrollo de LLM diseñados específicamente para el razonamiento médico. Proponemos una taxonomía de técnicas de mejora de la inferencia, categorizadas por estrategias de entrenamiento (p. ej., ajuste fino del aprendizaje supervisado, aprendizaje de refuerzo) y mecanismos de prueba (p. ej., ingeniería de avisos, sistemas multiagente). Analizamos la aplicación de estas técnicas en diversas modalidades de datos (texto, imágenes, código) y aplicaciones clínicas clave como el diagnóstico, la educación y la planificación del tratamiento. También examinamos la evolución de los parámetros de evaluación, desde simples medidas de precisión hasta evaluaciones sofisticadas de la calidad de la inferencia y la interpretabilidad visual. Al analizar 60 estudios clave publicados entre 2022 y 2025, identificamos desafíos críticos, como la brecha de credibilidad-plausibilidad y la necesidad de una inferencia multimodal fundamental, y sugerimos direcciones futuras para construir una IA de atención médica eficiente, sólida y sociotécnicamente responsable.