Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Diffusion sur les codages de modèles de langage pour la génération de séquences protéiques

Created by
  • Haebom

Auteur

Viacheslav Meshchaninov, Pavel Strashnov, Andrey Shevtsov, Fedor Nikolaev, Nikita Ivanisenko, Olga Kardymon, Dmitry Vetrov

Contour

DiMA, un framework de diffusion latente utilisant des représentations de modèles de langage protéique, présente une méthodologie robuste et généralisable à divers encodeurs protéiques (paramètres 8M à 3B). Comparé aux modèles de langage autorégressifs, de diffusion discrète et de flux cohérent existants, il affiche de bons résultats lors d'expériences approfondies utilisant plusieurs représentations protéiques (ESM-2, ESMc, CHEAP, SaProt) et divers paramètres d'évaluation (qualité, diversité, nouveauté et congruence de distribution), générant ainsi des séquences protéiques nouvelles, de haute qualité et diversifiées. Il prend également en charge des tâches génératives conditionnelles, telles que la génération de familles de protéines, l'échafaudage et le remplissage de motifs, et la conception de séquences spécifiques à chaque repliement.

Takeaways, Limitations

Takeaways:
Il s’agit de l’une des premières applications réussies du modèle de diffusion continue à la conception de séquences protéiques.
Obtenez des performances élevées et constantes en utilisant la même architecture et la même méthode de formation pour une variété d'encodeurs et de représentations de protéines.
Il surpasse les méthodes existantes telles que les modèles autorégressifs, de diffusion discrète et de flux cohérent.
Il fournit des fonctions polyvalentes qui prennent en charge diverses tâches de génération conditionnelle telles que la génération de familles de protéines et l'échafaudage de motifs.
Il fournit de nouvelles perspectives architecturales et une applicabilité pratique au domaine de la conception des protéines.
Limitations:
Cet article n'aborde pas de questions spécifiques concernant Limitations. Des expériences ou analyses supplémentaires pourraient être nécessaires pour résoudre ces problèmes (par exemple, évolutivité, coût de calcul, limitations de performances pour des structures protéiques spécifiques, etc.).
👍