Cet article présente une technique de mise à l'échelle du temps d'inférence permettant d'améliorer les performances d'inférence des modèles de langage à grande échelle (MLH). Nous soulignons que les méthodes de mise à l'échelle du temps d'inférence existantes reposent souvent sur des stratégies heuristiques et manquent donc de fondement théorique. Nous proposons un cadre probabiliste formalisant une mise à l'échelle optimale du temps d'inférence en supposant que les échantillons parallèles sont indépendants et identiquement distribués. Dans ce cadre, nous dérivons une borne inférieure théorique du nombre d'échantillons requis pour atteindre un niveau de performance cible et développons OptScale, un algorithme pratique qui détermine dynamiquement le nombre optimal d'échantillons en fonction de cette borne inférieure théorique. OptScale estime les paramètres a priori probabilistes à l'aide d'un prédicteur basé sur un modèle de langage et détermine le nombre minimal d'échantillons requis pour satisfaire un seuil de performance et un niveau de confiance prédéfinis. Grâce à des expériences approfondies sur des benchmarks d'inférence mathématique (notamment MATH-500, GSM8K, AIME et AMC), nous démontrons qu'OptScale atteint des performances comparables, voire supérieures, aux performances d'inférence les plus récentes, tout en réduisant considérablement la charge d'échantillonnage. En conclusion, cet article fournit à la fois une base théorique et une solution pratique qui comble une lacune critique dans le déploiement efficace des LLM pour l'inférence complexe.