Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Un modèle de langage général pour l'identification des peptides

Created by
  • Haebom

Auteur

Jixiu Zhai, Tianchi Lu, Haitian Zhong, Ziyang Xu, Yuhuan Liu, Shengrui Xu, Jingwan Wang, Dan Huang

Contour

PDeepPP est un framework d'apprentissage profond intégré qui permet une identification robuste des peptides bioactifs (BP) et des modifications post-traductionnelles (MPT) des protéines pour un large éventail de caractéristiques peptidiques. Il intègre un modèle de langage protéique pré-entraîné et une architecture hybride transformateur-convolution pour permettre une identification robuste pour un large éventail de classes de peptides et de sites MPT. Il extrait systématiquement les caractéristiques de séquences globales et locales en organisant un ensemble complet de données de référence et en mettant en œuvre des stratégies pour corriger le déséquilibre des données. Grâce à des analyses approfondies incluant la réduction de la dimensionnalité et des études comparatives, PDeepPP démontre des représentations peptidiques robustes et interprétables et atteint des performances de pointe pour 25 des 33 tâches d'identification biologique. Il atteint notamment une grande précision pour l'identification des antimicrobiens (0,9726) et des sites de phosphorylation (0,9984), et présente une spécificité de 99,5 % pour la prédiction des sites de glycosylation ainsi qu'une réduction significative des faux négatifs pour une tâche antipaludique. En permettant une analyse précise des peptides à grande échelle, PDeepPP soutient la recherche biomédicale et la découverte de nouvelles cibles thérapeutiques pour le traitement des maladies. L'ensemble du code, des jeux de données et des modèles pré-entraînés sont accessibles au public via GitHub et Hugging Face.

Takeaways, Limitations_

Takeaways:
Fournit un cadre d'apprentissage profond intégré qui permet une identification robuste et précise de diverses fonctions peptidiques et de sites PTM.
Atteindre des performances de pointe dans une variété de tâches d'identification biologique, y compris l'identification des sites antimicrobiens et de phosphorylation.
Mise en œuvre de stratégies pour résoudre les problèmes de déséquilibre des données.
Fournit des représentations peptidiques interprétables.
Soutenir la recherche biomédicale et la découverte de nouvelles cibles thérapeutiques.
Code, ensembles de données et modèles pré-entraînés accessibles au public.
Limitations:
Les performances de pointe ne sont pas atteintes dans 8 tâches sur 33. (Bien que cela ne soit pas explicitement indiqué, les performances de pointe ne sont pas de 100 %, elles sont donc considérées comme Limitations)
Les performances de généralisation pour des PTM ou des fonctions peptidiques spécifiques peuvent nécessiter une étude plus approfondie. (Implicite Limitations)
👍