Este artículo presenta un nuevo marco basado en aprendizaje dinámico por refuerzo para abordar el árbol de inferencia fijo y la sobreestimación de todas las posibles estrategias de solución en el marco existente de Árbol de Pensamiento Probabilístico (ProbTree). El marco construye incrementalmente un árbol de inferencia basado en la estimación de la confianza en tiempo real y aprende políticas óptimas para la selección de acciones, como la descomposición, la búsqueda o la agregación. Mejora la calidad de la solución y la eficiencia computacional mediante la expansión selectiva y la asignación intensiva de recursos, manteniendo al mismo tiempo la rigurosidad probabilística de ProbTree. Como resultado, presentamos un nuevo paradigma de inferencia basado en árboles que equilibra la fiabilidad de los marcos probabilísticos con la flexibilidad necesaria para los sistemas prácticos de preguntas y respuestas.