Cet article met en évidence les limites des évaluations de robustesse existantes des modèles de compréhension de lecture automatique (MRC), qui reposent principalement sur des perturbations artificielles. Nous proposons un nouveau cadre d'évaluation de la robustesse des modèles MRC basé sur des perturbations textuelles naturelles, en exploitant l'historique des modifications de Wikipédia. Des expériences sur le jeu de données SQUAD et diverses architectures de modèles démontrent que les perturbations naturelles dégradent les performances des modèles de langage d'encodeur pré-entraînés, et que même les modèles Flan-T5 et les modèles de langage à grande échelle (LLM) de pointe présentent ces erreurs. De plus, nous démontrons que la robustesse peut être améliorée en utilisant des données entraînées avec des perturbations naturelles ou artificielles, mais que des écarts de performance subsistent par rapport aux données non perturbées.