Este artículo analiza una técnica de escalamiento en tiempo de inferencia para mejorar el rendimiento de los modelos de lenguaje a gran escala (LLM). Señalamos que los métodos existentes de escalamiento en tiempo de inferencia suelen basarse en estrategias heurísticas y, por lo tanto, carecen de fundamento teórico. Proponemos un marco probabilístico que formaliza el escalamiento óptimo en tiempo de inferencia bajo el supuesto de que las muestras paralelas son independientes y se distribuyen de forma idéntica. En este marco, derivamos un límite inferior teórico para el número de muestras necesario para alcanzar un nivel de rendimiento objetivo y desarrollamos OptScale, un algoritmo práctico que determina dinámicamente el número óptimo de muestras con base en dicho límite inferior teórico. OptScale estima parámetros probabilísticos a priori utilizando un predictor basado en un modelo de lenguaje y determina el número mínimo de muestras necesario para satisfacer un umbral de rendimiento y un nivel de confianza predefinidos. Mediante experimentos exhaustivos con benchmarks de inferencia matemática (incluyendo MATH-500, GSM8K, AIME y AMC), demostramos que OptScale logra un rendimiento comparable o superior al de los modelos de inferencia más modernos, a la vez que reduce significativamente la sobrecarga de muestreo. En conclusión, este artículo proporciona una base teórica y una solución práctica que cubre una brecha crítica en la implementación eficiente de LLM para inferencia compleja.