Este artículo propone una prueba de estrés de generalización para evaluar la capacidad de generalización de los modelos lingüísticos a gran escala (MLG). Evaluamos dicha capacidad aplicando cambios menores y controlados a la longitud de las opciones, el tipo de pregunta y la sustitución de sustantivos irrelevantes. Los resultados experimentales revelan que, a pesar de las altas puntuaciones de referencia, los MML presentan una degradación significativa de la precisión y sesgos inesperados (p. ej., una preferencia por respuestas incorrectas más largas) al enfrentarse a estas modificaciones menores que preservan el contenido. Por ejemplo, la puntuación MMLU de Qwen 2.5 1.5B aumenta de 60 a 89 al cambiar la longitud de las opciones, pero disminuye de 89 a 36 cuando la pregunta permanece sin cambios. Incluso el GPT-4 experimenta una pérdida de precisión de 25 puntos al cambiar el tipo de pregunta, con una disminución de 6 puntos en las tres categorías de modificación. Este análisis sugiere que los MML se basan en gran medida en claves superficiales en lugar de formar representaciones robustas y abstractas que se generalicen en función del formato, la variación léxica y la variación de contenido irrelevante.