Este artículo presenta el marco de Optimización Jerárquica de Políticas de Presupuesto (HBPO) para abordar la ineficiencia de los modelos de inferencia a gran escala, que realizan inferencias excesivas de forma consistente a pesar de las demandas computacionales que varían con la complejidad del problema. A diferencia de los métodos existentes que se basan en restricciones fijas o selección de modo discreto, HBPO divide el espacio de búsqueda en capas con restricciones presupuestarias (512-2560 tokens) con estructuras de recompensa diferenciadas, manteniendo así tanto la eficiencia como el rendimiento de la inferencia. Para abordar el problema de las penalizaciones de longitud convencionales que excluyen las rutas de inferencia redundantes, entrenamos el modelo para que realice inferencia redundante solo cuando sea necesario, manteniendo al mismo tiempo la diversidad de exploración mediante muestreo jerárquico y recompensas que tienen en cuenta el presupuesto. Los resultados experimentales demuestran que HBPO reduce el uso promedio de tokens hasta en un 60,6 % y mejora la precisión en un 3,14 % en cuatro parámetros de inferencia, a la vez que ajusta automáticamente la profundidad de la inferencia de forma adaptativa en función de la complejidad del problema. En conclusión, demostramos que un aprendizaje jerárquico adecuado puede optimizar simultáneamente la eficiencia y el rendimiento de la inferencia.