Cet article présente un nouveau cadre basé sur l'apprentissage par renforcement dynamique pour répondre à la structure arborescente fixe du cadre Probabilistic Tree-of-Thought (ProbTree), qui est Limitations, et à la nécessité d'une évaluation complète de toutes les stratégies de résolution possibles. Le cadre construit progressivement l'arbre en s'appuyant sur une estimation de confiance en temps réel et apprend une politique optimale de sélection d'actions (décomposition, recherche ou agrégation), améliorant ainsi simultanément la qualité de la solution et l'efficacité de calcul tout en maintenant la rigueur probabiliste de ProbTree. Ceci est réalisé grâce à une expansion sélective et une allocation intensive des ressources. En conséquence, nous présentons un nouveau paradigme d'inférence basé sur les arbres qui équilibre la fiabilité des cadres probabilistes avec la flexibilité requise pour les systèmes de réponse aux questions du monde réel.