En este artículo, proponemos una arquitectura de decodificador jerárquico que imita la capacidad humana de razonamiento jerárquico, aprovechando que los modelos de lenguaje basados únicamente en decodificadores, como GPT y LLaMA, solo decodifican en la última capa. Debido a limitaciones de tiempo y recursos computacionales, adoptamos un enfoque para transformar un modelo de lenguaje pre-entrenado en un decodificador jerárquico. Las cabezas de lenguaje de la última capa se copian en varias capas intermedias seleccionadas y se ajustan con diferentes entradas de tarea. Mediante experimentos, verificamos que las capas intermedias seleccionadas pueden generar contenido significativo y válido, y este paradigma de decodificador jerárquico logra un rendimiento de vanguardia en varias tareas, como la clasificación jerárquica de texto, la generación basada en clasificación y la generación jerárquica de texto. Esto sugiere la posibilidad de un inferenciador jerárquico generalizado que se pre-entrena desde cero.