Este artículo aborda el potencial de los modelos de lenguaje a gran escala (LLM) para mejorar la atención médica al respaldar la investigación médica y a los médicos. Sin embargo, su dependencia de datos de entrenamiento estáticos plantea un riesgo significativo cuando las recomendaciones médicas evolucionan en respuesta a nuevas investigaciones y desarrollos. Los LLM pueden brindar consejos perjudiciales o fallar en tareas de razonamiento clínico si retienen conocimiento médico obsoleto. Para investigar este tema, presentamos dos nuevos conjuntos de datos de preguntas y respuestas (QA) derivados de revisiones sistemáticas: MedRevQA (16,501 pares de QA que cubren el conocimiento biomédico general) y MedChangeQA (un subconjunto de 512 pares de QA donde el consenso médico ha cambiado con el tiempo). Las evaluaciones de conjuntos de datos en ocho LLM líderes revelan una dependencia constante de conocimiento obsoleto en todos los modelos. Además, analizamos el impacto de los datos de preentrenamiento obsoletos y las estrategias de entrenamiento para explicar este fenómeno y proponer futuras direcciones para la mitigación, sentando las bases para el desarrollo de sistemas de IA médica más actualizados y confiables.