Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Un modelo de lenguaje general para la identificación de péptidos

Created by
  • Haebom

Autor

Jixiu Zhai, Tianchi Lu, Haitian Zhong, Ziyang Xu, Yuhuan Liu, Shengrui Xu, Jingwan Wang, Dan Huang

Describir

PDeepPP es un marco integrado de aprendizaje profundo que permite la identificación robusta de péptidos bioactivos (PB) y modificaciones postraduccionales (MPT) de proteínas en una amplia gama de características peptídicas. Está diseñado integrando modelos de lenguaje de proteínas preentrenados con una arquitectura híbrida de transformador-convolución, y extrae sistemáticamente características de secuencias globales y locales aprovechando conjuntos de datos de referencia completos e implementando estrategias para abordar el desequilibrio de datos. Mediante un análisis exhaustivo que incluye reducción de dimensionalidad y estudios comparativos, PDeepPP demuestra representaciones peptídicas robustas e interpretables, logrando un rendimiento de vanguardia en 25 de 33 tareas de identificación biológica. En particular, logra una alta precisión en la identificación de antimicrobianos (0,9726) y sitios de fosforilación (0,9984), una especificidad del 99,5 % en la predicción de sitios de glicosilación y una reducción significativa de falsos negativos en tareas antimaláricas. PDeepPP permite el análisis preciso de péptidos a gran escala para respaldar la investigación biomédica y el descubrimiento de nuevas dianas terapéuticas para el tratamiento de enfermedades. Todos los códigos, conjuntos de datos y modelos previamente entrenados están disponibles públicamente a través de GitHub y Hugging Face.

Takeaways, Limitations

Takeaways:
Proporciona una identificación sólida y precisa de diversas funciones de péptidos y sitios PTM.
Lograr un rendimiento de última generación en la identificación de sitios de fosforilación, antimicrobianos y predicción de sitios de glicosilación.
Resuelve eficazmente problemas de desequilibrio de datos para proporcionar resultados confiables.
Proporciona representaciones de péptidos interpretables para ayudar a comprender los resultados.
Tiene el potencial de contribuir a la investigación biomédica y al desarrollo de nuevos fármacos.
Hicimos todo el código y los datos abiertos para aumentar la reproducibilidad y escalabilidad de nuestra investigación.
Limitations:
En 8 de las 33 tareas, no se logró un rendimiento óptimo. Hay margen de mejora.
La capacidad de generalización a diferentes características peptídicas puede verse afectada por la composición del conjunto de datos. Podría requerirse un conjunto de datos más diverso.
Existe la posibilidad de que el rendimiento se reduzca con ciertos tipos de péptidos o PTM. Se requieren más estudios.
👍