Este artículo presenta un método que utiliza el Aprendizaje por Refuerzo en Tiempo de Prueba (TTRL) para mejorar la capacidad de inferencia compleja de los modelos de lenguaje a gran escala (LLM). Para abordar el alto coste de inferencia y los problemas de exceso de confianza del TTRL actual, proponemos dos estrategias: Despliegue Mayoritario de Árbol de Ramas de Entropía (ETMR) y Reconfiguración de Ventaja Basada en Entropía (EAR), que mejoran el equilibrio entre exploración y explotación mediante la introducción de mecanismos basados en la entropía. Aplicando esta estrategia al modelo Llama3.1-8B, demostramos un enfoque eficiente que mejora la métrica "Pase a 1" en un 68% en el benchmark AIME 2024, utilizando solo el 60% del presupuesto de tokens de despliegue. Esto demuestra que el TTRL optimiza eficazmente el equilibrio entre la eficiencia de inferencia, la diversidad y la robustez de la estimación.