Este artículo presenta un marco para la inferencia implícita eficiente de modelos de lenguaje a gran escala (LLM). El método convencional de incitación CoT presenta la desventaja de ser computacionalmente costoso y lento, por lo que en este artículo proponemos un método para inferir en el espacio latente sin generar explícitamente el proceso computacional como texto. Para ello, modelamos el proceso de pensamiento latente como una acción abstracta (opción) extendida en el tiempo dentro de un marco de aprendizaje por refuerzo jerárquico, y aprendemos diversas opciones como incrustaciones latentes utilizando el algoritmo crítico de opciones de Markov variacional (VMOC). Extendemos la teoría del isomorfismo MDP continuo para demostrar que el aprendizaje de políticas en el espacio latente preserva la solución óptima del problema complejo original, y proponemos un procedimiento de arranque en frío que destila demostraciones de razonamiento humano en el espacio de opciones latentes utilizando datos de ajuste fino supervisado (SFT). Los resultados experimentales en pruebas de razonamiento lógico complejo y tareas de movimiento demuestran la eficacia del marco propuesto.