本論文は、既存のProbabilistic Tree-of-Thought(ProbTree)フレームワークのLimitationsである固定推論ツリーと、すべての可能な解決戦略の過度の評価を解決するために、動的強化学習ベースの新しいフレームワークを提示します。このフレームワークは、リアルタイムの信頼性推定に基づいて推論ツリーを徐々に構築し、分解、検索、集計などの行動選択に最適なポリシーを学習します。これにより、ProbTreeの確率的厳格性を維持しながら、選択的拡張と集中的なリソース割り当てにより、ソリューションの品質と計算効率の両方が向上します。その結果、確率的フレームワークの信頼性と実際のクエリ応答システムに必要な柔軟性をバランスよく考慮した新しいツリーベースの推論パラダイムを提示します。