Cet article examine le potentiel des modèles linguistiques à grande échelle (MLH) pour améliorer les soins de santé en soutenant la recherche médicale et les médecins. Cependant, leur dépendance à des données d'entraînement statiques présente un risque important lorsque les recommandations médicales évoluent en réponse aux nouvelles recherches et développements. Les LHH peuvent fournir des conseils préjudiciables ou échouer à des tâches de raisonnement clinique s'ils conservent des connaissances médicales obsolètes. Pour étudier cette question, nous présentons deux nouveaux ensembles de données de questions-réponses (AQ) issus de revues systématiques : MedRevQA (16 501 paires d'AQ couvrant les connaissances biomédicales générales) et MedChangeQA (un sous-ensemble de 512 paires d'AQ où le consensus médical a évolué au fil du temps). Les évaluations des ensembles de données de huit LHH de premier plan révèlent une dépendance constante à des connaissances obsolètes dans tous les modèles. De plus, nous analysons l'impact des données de pré-entraînement et des stratégies d'entraînement obsolètes afin d'expliquer ce phénomène et de proposer des pistes d'atténuation, jetant ainsi les bases du développement de systèmes d'IA médicale plus modernes et plus fiables.