Las Redes de Flujo Generativo (GFlowNets) son una herramienta potente para generar objetos estructurados con resultados diversos y de alta recompensa mediante el muestreo de una distribución proporcional a una función de recompensa dada. A diferencia de los enfoques tradicionales de aprendizaje por refuerzo (RL), las GFlowNets buscan equilibrar la diversidad y la recompensa modelando la distribución completa de trayectorias. Esto las hace adecuadas para dominios como el diseño molecular y la optimización combinatoria. Sin embargo, las estrategias de muestreo de GFlowNets existentes a menudo conducen a una exploración excesiva y dificultan la generación consistente de muestras de alta recompensa, especialmente en grandes espacios de exploración con regiones dispersas de alta recompensa. En este estudio, integramos una Búsqueda de Árboles de Monte Carlo mejorada (MCTS) en el proceso de muestreo de GFlowNets, lo que induce la generación de trayectorias de alta recompensa mediante la evaluación de políticas basada en MCTS. Equilibramos adaptativamente la exploración y la explotación mediante Árboles de Confianza Superior Polinomial (PUCT) e introducimos un mecanismo voraz controlable. Nuestro método equilibra dinámicamente la exploración y la guía basada en recompensa sin sacrificar la diversidad, mejorando así la explotación.