Este artículo destaca las limitaciones de las evaluaciones de robustez existentes de los modelos de comprensión lectora automática (CLM), que se basan principalmente en perturbaciones artificiales. Proponemos un nuevo marco para evaluar la robustez de los modelos CLM basados en perturbaciones textuales naturales, aprovechando el historial de edición de Wikipedia. Experimentos con el conjunto de datos SQUAD y diversas arquitecturas de modelos demuestran que las perturbaciones naturales degradan el rendimiento de los modelos de lenguaje de codificador preentrenados, y que incluso los modelos de lenguaje Flan-T5 y a gran escala (LLM) de última generación presentan estos errores. Además, demostramos que la robustez puede mejorarse utilizando datos entrenados con perturbaciones naturales o artificiales, pero que aún existen brechas de rendimiento en comparación con los datos no perturbados.