Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Un modelo de lenguaje general para la identificación de péptidos

Created by
  • Haebom

Autor

Jixiu Zhai, Zikun Wang, Tianchi Lu, Haitian Zhong, Ziyang Xu, Yuhuan Liu, Shengrui Xu, Jingwan Wang, Dan Huang

Describir

PDeepPP es un marco integrado de aprendizaje profundo que integra un modelo de lenguaje proteico preentrenado y una arquitectura híbrida de transformador-convolución, lo que permite una identificación robusta en una amplia gama de características peptídicas. Extrae sistemáticamente características de secuencias globales y locales mediante la selección de amplios conjuntos de datos de referencia y la implementación de estrategias para abordar el desequilibrio de datos. Un análisis exhaustivo, que incluye reducción de dimensionalidad y estudios comparativos, demuestra la robustez e interpretación de las representaciones peptídicas de PDeepPP, logrando un rendimiento de vanguardia en 25 de 33 tareas de identificación biológica. En concreto, alcanza una alta precisión en la identificación de sitios antibacterianos (0,9726) y de fosforilación (0,9984), una especificidad del 99,5 % en la predicción de sitios de glicosilación y una reducción significativa de falsos negativos en tareas antimaláricas. Al permitir un análisis peptídico preciso a gran escala, PDeepPP apoya la investigación biomédica y el descubrimiento de nuevas dianas terapéuticas para el tratamiento de enfermedades. Todo el código, los conjuntos de datos y los modelos previamente entrenados están disponibles públicamente en GitHub ( https://github.com/fondress/PDeepPP ) y Hugging Face ( https://huggingface.co/fondress/PDeppPP) .

Takeaways, Limitations

Takeaways:
Proporciona una identificación sólida y precisa de diversas funciones de péptidos y sitios PTM.
Logre un rendimiento de vanguardia en una variedad de tareas biológicas, incluida la identificación de sitios antimicrobianos, de fosforilación y de glicosilación.
Presentamos una estrategia para abordar eficazmente los problemas de desequilibrio de datos.
Tiene un gran potencial para contribuir a la investigación biomédica y al desarrollo de nuevos fármacos.
Todos los códigos, datos y modelos están disponibles públicamente y son altamente accesibles.
Limitations:
No se logró un desempeño de vanguardia en ocho de las 33 tareas, lo que indica áreas para mejoras futuras.
Este documento no proporciona detalles específicos sobre Limitations. Podría requerirse análisis y verificación adicionales.
👍