Este artículo propone una arquitectura de aumento de memoria y una estrategia de preentrenamiento para abordar el problema de la dependencia del rendimiento de los modelos de lenguaje modernos con respecto al escalado de parámetros. Esta arquitectura permite que los modelos de lenguaje pequeños accedan a un amplio banco de memoria paramétrica jerárquica que codifica el conocimiento del mundo. Durante el preentrenamiento y la inferencia, se recuperan pequeños bloques de memoria y se añaden al modelo en función del contexto. Esto permite almacenar conocimiento del mundo de cola larga en los parámetros de memoria, mientras el modelo de lenguaje pequeño aprende a gestionar el conocimiento general y las capacidades de inferencia general. Experimentalmente, demostramos que añadir 18 MB de memoria de parámetros a un modelo de 160 MB de parámetros, utilizando un banco de memoria de 4,6 B, logra un rendimiento comparable al de un modelo típico con más del doble de parámetros. También investigamos el tipo y el tamaño óptimos de memoria paramétrica para un modelo Transformer, escalándolo hasta 21 B de parámetros. Demostramos que la memoria de avance jerárquica propuesta presenta un rendimiento robusto en una arquitectura Transformer, ya sea preentrenada o añadida postentrenada.