본 논문은 기존의 Probabilistic Tree-of-Thought (ProbTree) 프레임워크의 한계점인 고정된 추론 트리와 모든 가능한 해결 전략의 과도한 평가를 해결하기 위해 동적 강화 학습 기반의 새로운 프레임워크를 제시합니다. 이 프레임워크는 실시간 신뢰도 추정에 기반하여 추론 트리를 점진적으로 구축하고, 분해, 검색 또는 집계와 같은 행동 선택을 위한 최적 정책을 학습합니다. 이는 ProbTree의 확률적 엄격성을 유지하면서 선택적 확장과 집중적인 자원 할당을 통해 해결책의 질과 계산 효율성을 모두 향상시킵니다. 결과적으로, 확률적 프레임워크의 신뢰성과 실제 질의응답 시스템에 필요한 유연성을 균형 있게 고려한 새로운 트리 기반 추론 패러다임을 제시합니다.