Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MG2FlowNet: Aceleración de la generación de muestras de alta recompensa mediante MCTS mejorado y control de la codicia

Created by
  • Haebom

Autor

Rui Zhu, Xuan Yu, Yudong Zhang, Chen Zhang, Xu Wang, Yang Wang

Describir

Las Redes de Flujo Generativo (GFlowNets) son una herramienta potente para generar objetos estructurados con resultados diversos y de alta recompensa mediante el muestreo de una distribución proporcional a una función de recompensa dada. A diferencia de los enfoques tradicionales de aprendizaje por refuerzo (RL), las GFlowNets buscan equilibrar la diversidad y la recompensa modelando la distribución completa de trayectorias. Esto las hace adecuadas para dominios como el diseño molecular y la optimización combinatoria. Sin embargo, las estrategias de muestreo de GFlowNets existentes a menudo conducen a una exploración excesiva y dificultan la generación consistente de muestras de alta recompensa, especialmente en grandes espacios de exploración con regiones dispersas de alta recompensa. En este estudio, integramos una Búsqueda de Árboles de Monte Carlo mejorada (MCTS) en el proceso de muestreo de GFlowNets, lo que induce la generación de trayectorias de alta recompensa mediante la evaluación de políticas basada en MCTS. Equilibramos adaptativamente la exploración y la explotación mediante Árboles de Confianza Superior Polinomial (PUCT) e introducimos un mecanismo voraz controlable. Nuestro método equilibra dinámicamente la exploración y la guía basada en recompensa sin sacrificar la diversidad, mejorando así la explotación.

Takeaways, Limitations

Integración de MCTS en el muestreo de GFlowNet para inducir la generación de trayectorias de alta recompensa y equilibrar la exploración y la explotación.
Ajustar dinámicamente el equilibrio entre exploración y explotación introduciendo un mecanismo para controlar el nivel de codicia.
Descubra regiones de alta recompensa más rápido y mantenga la diversidad en la distribución generacional mientras genera continuamente muestras de alta recompensa.
(Limitations no se menciona explícitamente en el documento)
👍