Este artículo presenta un nuevo marco probabilístico para el escalamiento en tiempo de inferencia (ITS) con el fin de mejorar el rendimiento de inferencia de modelos lingüísticos a gran escala (LLM). Supera las limitaciones de los métodos convencionales de muestreo paralelo basados en heurísticas y establece una base teórica para el escalamiento óptimo en tiempo de inferencia, suponiendo que las muestras paralelas son independientes y se distribuyen de forma idéntica. Al estimar la distribución de probabilidad de una estrategia de selección al mejor de N, derivamos un límite inferior teórico para el número mínimo de muestras necesario para alcanzar el nivel de rendimiento objetivo. Con base en este límite inferior, desarrollamos el algoritmo OptScale, que determina dinámicamente el recuento óptimo de muestras. OptScale utiliza un predictor basado en modelos lingüísticos para estimar parámetros probabilísticos a priori y determina el número mínimo de muestras que satisface los umbrales de rendimiento y los niveles de confianza predefinidos. Experimentos exhaustivos con referentes de inferencia matemática como MATH-500, GSM8K, AIME y AMC demuestran que OptScale reduce significativamente la sobrecarga de muestreo, manteniendo al mismo tiempo un rendimiento de inferencia de vanguardia. Este artículo proporciona fundamentos teóricos y soluciones prácticas, contribuyendo significativamente a la implementación eficiente de LLM para inferencia compleja. El código fuente está disponible públicamente.