Cet article présente le cadre d'optimisation hiérarchique des politiques budgétaires (HBPO) pour remédier à l'inefficacité des modèles d'inférence à grande échelle, qui effectuent systématiquement des inférences excessives malgré des exigences de calcul variables selon la complexité du problème. Contrairement aux méthodes existantes qui reposent sur des contraintes fixes ou une sélection de mode discret, HBPO partitionne l'espace de recherche en couches à budget limité (512 à 2 560 jetons) avec des structures de récompense différenciées, préservant ainsi à la fois l'efficacité et les performances d'inférence. Pour résoudre le problème des pénalités de longueur conventionnelles excluant les chemins d'inférence redondants, nous entraînons le modèle à effectuer des inférences redondantes uniquement lorsque cela est nécessaire, tout en préservant la diversité d'exploration grâce à un échantillonnage hiérarchique et des récompenses tenant compte du budget. Les résultats expérimentaux démontrent que HBPO réduit l'utilisation moyenne de jetons jusqu'à 60,6 % et améliore la précision de 3,14 % sur quatre tests d'inférence, tout en ajustant automatiquement et de manière adaptative la profondeur d'inférence en fonction de la complexité du problème. En conclusion, nous démontrons qu'un apprentissage hiérarchique approprié peut simultanément optimiser l'efficacité et les performances de l'inférence.