Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Difusión de codificaciones de modelos de lenguaje para la generación de secuencias de proteínas

Created by
  • Haebom

Autor

Viacheslav Meshchaninov, Pavel Strashnov, Andrey Shevtsov, Fedor Nikolaev, Nikita Ivanisenko, Olga Kardymon, Dmitry Vetrov

Describir

DiMA, un marco de difusión latente que utiliza representaciones de modelos de lenguaje de proteínas, presenta una metodología robusta que se generaliza a diversos codificadores de proteínas (parámetros de 8M a 3B). En comparación con los modelos de lenguaje autorregresivos, de difusión discreta y de flujo consistente existentes, presenta un rendimiento consistentemente satisfactorio en experimentos exhaustivos con múltiples representaciones de proteínas (ESM-2, ESMc, CHEAP, SaProt) y diversas métricas de evaluación (calidad, diversidad, novedad y congruencia de distribución), generando secuencias de proteínas novedosas, de alta calidad y diversas. También admite tareas generativas condicionales, como la generación de familias de proteínas, el andamiaje y relleno de motivos, y el diseño de secuencias con pliegues específicos.

Takeaways, Limitations

Takeaways:
Esta es una de las primeras aplicaciones exitosas del modelo de difusión continua al diseño de secuencias de proteínas.
Logre un alto rendimiento constante utilizando la misma arquitectura y método de entrenamiento para una variedad de codificadores y representaciones de proteínas.
Supera los métodos existentes, como los modelos autorregresivos, de difusión discreta y de flujo consistente.
Proporciona funciones versátiles que admiten diversas tareas de generación condicional, como la generación de familias de proteínas y el andamiaje de motivos.
Proporciona nuevos conocimientos arquitectónicos y aplicabilidad práctica al campo del diseño de proteínas.
Limitations:
Este artículo no aborda el Limitations específico. Podrían ser necesarios experimentos o análisis adicionales para abordar estos problemas (p. ej., escalabilidad, coste computacional, limitaciones de rendimiento para estructuras proteicas específicas, etc.).
👍