Cet article présente un nouveau cadre probabiliste pour la mise à l'échelle du temps d'inférence (ITS) afin d'améliorer les performances d'inférence des modèles de langage à grande échelle (LLM). Il surmonte les limites des méthodes conventionnelles d'échantillonnage parallèle basées sur des heuristiques et établit les bases théoriques d'une mise à l'échelle optimale du temps d'inférence, en supposant que les échantillons parallèles sont indépendants et identiquement distribués. En estimant la distribution de probabilité d'une stratégie de sélection « best of N », nous dérivons une borne inférieure théorique du nombre minimal d'échantillons requis pour atteindre un niveau de performance cible. À partir de cette borne inférieure, nous développons l'algorithme OptScale, qui détermine dynamiquement le nombre optimal d'échantillons. OptScale utilise un prédicteur basé sur un modèle de langage pour estimer les paramètres a priori probabilistes et déterminer le nombre minimal d'échantillons satisfaisant des seuils de performance et des niveaux de confiance prédéfinis. Des expériences approfondies sur des benchmarks d'inférence mathématique tels que MATH-500, GSM8K, AIME et AMC démontrent qu'OptScale réduit considérablement la charge d'échantillonnage tout en maintenant des performances d'inférence de pointe. Cet article fournit des fondements théoriques et des solutions pratiques, contribuant ainsi significativement au déploiement efficace des LLM pour l'inférence complexe. Le code source est accessible au public.