Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Distillation itérative pour un réglage fin guidé par la récompense des modèles de diffusion dans la conception biomoléculaire

Created by
  • Haebom

Auteur

Xingyu Su, Xiner Li, Masatoshi Uehara, Sunwoo Kim, Yulai Zhao, Gabriele Scalia, Ehsan Hajiramezanali, Tommaso Biancalani, Degui Zhi, Shuiwang Ji

Contour

Cet article aborde le problème du réglage fin des modèles de diffusion pour la génération basée sur la récompense en conception biomoléculaire. Si les modèles de diffusion sont très efficaces pour modéliser des distributions de données complexes et de grande dimension, les applications concrètes nécessitent souvent une optimisation pour des fonctions de récompense non différentiables, telles que celles issues de simulations physiques ou de connaissances scientifiques. Les méthodes existantes basées sur l'apprentissage par renforcement (RL) souffrent souvent d'instabilité, d'une faible efficacité d'échantillonnage et d'un effondrement de mode. Dans cette étude, nous proposons un cadre de réglage fin itératif basé sur la distillation qui optimise les modèles de diffusion pour des fonctions de récompense arbitraires. Cette méthode transforme le problème en un problème de distillation de politique : elle collecte des données hors politique pendant la phase de déploiement, simule une politique optimale souple basée sur la récompense pendant la phase de déploiement, et met à jour le modèle en minimisant la divergence KL entre la politique optimale souple simulée et la politique actuelle du modèle. La formulation hors politique et la minimisation de la divergence KL améliorent la stabilité de l'apprentissage et l'efficacité d'échantillonnage par rapport aux méthodes RL existantes. Les résultats expérimentaux démontrent l’efficacité de la méthode proposée et son optimisation supérieure de la récompense dans une variété de tâches de conception de protéines, de petites molécules et d’ADN régulateur.

Takeaways, Limitations

Takeaways:
Un nouveau cadre permettant d’affiner efficacement les modèles de diffusion pour des fonctions de récompense arbitraires est présenté.
Résoudre les limites des méthodes RL existantes, telles que l'instabilité et la faible efficacité de l'échantillon, grâce à l'apprentissage hors politique et à la minimisation de la divergence KL.
A démontré des performances supérieures dans diverses tâches de conception biomoléculaire, notamment la conception de protéines, de petites molécules et d'ADN régulateur.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Une vérification de l’applicabilité pour des ensembles de données plus complexes et à grande échelle est nécessaire.
La nécessité d'un réglage optimal des paramètres pour des fonctions de récompense spécifiques
👍