En este artículo, proponemos AttentionSpan, un nuevo parámetro para evaluar la fiabilidad con la que los modelos de lenguaje preentrenados realizan tareas algorítmicas, especialmente cuando mantienen su rendimiento en dominios de entrada/salida desconocidos. AttentionSpan consta de cinco tareas con dominios de entrada infinitos, diseñadas para distinguir entre la comprensión algorítmica y la memorización. Esto nos permite evaluar la capacidad del modelo para generalizar a tipos de entrada desconocidos, incluyendo longitudes, rangos de valores o dominios de entrada nuevos, y la robustez del mecanismo aprendido. Mediante el análisis de mapas de atención e intervenciones específicas, demostramos que el mecanismo de atención es directamente responsable del fallo de generalización. Las implementaciones de todas las tareas y los métodos de interpretabilidad están disponibles públicamente.