Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Destilación iterativa para el ajuste fino de modelos de difusión guiados por recompensas en el diseño biomolecular

Created by
  • Haebom

Autor

Xingyu Su, Xiner Li, Masatoshi Uehara, Sunwoo Kim, Yulai Zhao, Gabriele Scalia, Ehsan Hajiramezanali, Tommaso Biancalani, Degui Zhi, Shuiwang Ji

Describir

Este artículo aborda el problema del ajuste fino de modelos de difusión para la generación basada en recompensas en el diseño biomolecular. Si bien los modelos de difusión son altamente efectivos para modelar distribuciones de datos complejas y de alta dimensión, las aplicaciones del mundo real a menudo requieren optimización para funciones de recompensa no diferenciables, como las derivadas de simulaciones físicas o conocimiento científico. Los métodos existentes basados ​​en aprendizaje por refuerzo (RL) suelen presentar inestabilidad, baja eficiencia de muestreo y colapso modal. En este estudio, proponemos un marco de ajuste fino iterativo basado en destilación que optimiza los modelos de difusión para funciones de recompensa arbitrarias. Este método transforma el problema en un problema de destilación de políticas: recopila datos fuera de política durante la fase de implementación, simula una política óptima suave basada en recompensas durante la fase de implementación y actualiza el modelo minimizando la divergencia de KL entre la política óptima suave simulada y la política actual del modelo. La formulación fuera de política y la minimización de la divergencia de KL mejoran la estabilidad del entrenamiento y la eficiencia de muestreo en comparación con los métodos existentes basados ​​en RL. Los resultados experimentales demuestran la eficacia del método propuesto y su optimización superior de la recompensa en una variedad de tareas en el diseño de proteínas, moléculas pequeñas y ADN regulador.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo marco para ajustar eficazmente los modelos de difusión para funciones de recompensa arbitrarias.
Abordar las limitaciones de los métodos existentes basados ​​en RL, como la inestabilidad y la baja eficiencia de la muestra, a través del aprendizaje fuera de política y la minimización de la divergencia KL.
Demostró un rendimiento superior en diversas tareas de diseño biomolecular, incluido el diseño de proteínas, moléculas pequeñas y ADN regulador.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Es necesaria la verificación de aplicabilidad para conjuntos de datos más complejos y de gran escala.
La necesidad de un ajuste óptimo de parámetros para funciones de recompensa específicas
👍