Este artículo considera el aprendizaje de un mapeo de propuesta-respuesta, donde un generador invariante en el tiempo itera a través de múltiples pasos para generar una cadena de pensamiento, dada una clase base que genera una secuencia de tokens, y el token final se utiliza como respuesta. Formulamos el problema de aprendizaje tanto para los casos donde se observa el proceso de pensamiento como para los casos donde el proceso de pensamiento se aprende solo a partir de pares de propuesta-respuesta (cuando el proceso de pensamiento es latente), y analizamos la muestra y la complejidad computacional para clases base específicas, como las propiedades generales de la clase base (p. ej., dimensión VC) y los umbrales lineales. Presentamos una clase base simple que permite aprender una cadena de pensamiento universalmente representable y computacionalmente manejable, y su complejidad de muestra es independiente de la longitud de la cadena de pensamiento debido a su invariancia temporal. La atención se introduce naturalmente en este estudio.