Este artículo propone la ramificación controlada por entropía, una novedosa técnica de inferencia que mejora la eficiencia de los métodos computacionales en tiempo de prueba, como la búsqueda de haces, mejorando significativamente la capacidad de inferencia y la precisión en la resolución de problemas de los modelos de lenguaje a gran escala (LLM). Mientras que la búsqueda de haces convencional desperdicia importantes recursos computacionales al explorar ramas de baja varianza donde el modelo ya muestra un alto nivel de confianza, este artículo observa que un pequeño subconjunto de pasos de inferencia inciertos impacta desproporcionadamente la precisión de la predicción final. Por lo tanto, proponemos un método que asigna dinámicamente recursos computacionales aprovechando la entropía como mecanismo de control para extender selectivamente la secuencia de predicción solo en puntos de alta incertidumbre. Se utiliza un modelo de retroalimentación externa para clasificar y podar las ramas candidatas. Los resultados experimentales en benchmarks de inferencia matemática y financiera demuestran que esta estrategia logra un rendimiento similar o superior al de la búsqueda de haces convencional, logrando una mejora del 22,6% en la precisión con respecto a la inferencia estándar y una aceleración del 37%. Esto demuestra que la asignación dinámica de recursos durante la inferencia puede mejorar significativamente la eficiencia y la eficacia.