PDeepPP는 다양한 펩타이드 기능에 걸쳐 강력한 생체 활성 펩타이드(BPs) 및 단백질 번역 후 변형(PTMs) 식별을 가능하게 하는 통합 심층 학습 프레임워크입니다. 미리 훈련된 단백질 언어 모델과 하이브리드 변환기-합성곱 아키텍처를 통합하여 다양한 펩타이드 클래스 및 PTM 부위에 대한 강력한 식별을 가능하게 합니다. 포괄적인 벤치마크 데이터 세트를 큐레이션하고 데이터 불균형을 해결하기 위한 전략을 구현하여 전역 및 지역 시퀀스 특징을 체계적으로 추출합니다. 차원 축소 및 비교 연구를 포함한 광범위한 분석을 통해 PDeepPP는 강력하고 해석 가능한 펩타이드 표현을 보여주며 33가지 생물학적 식별 작업 중 25가지에서 최첨단 성능을 달성합니다. 특히 항균(0.9726), 인산화 부위(0.9984) 식별에서 높은 정확도를 달성하고, 당화 부위 예측에서 99.5%의 특이성과 말라리아 치료제 작업에서 위음성의 상당한 감소를 보입니다. 대규모 정확한 펩타이드 분석을 가능하게 함으로써 PDeepPP는 생의학 연구와 질병 치료를 위한 새로운 치료 표적 발견을 지원합니다. 모든 코드, 데이터 세트 및 미리 훈련된 모델은 GitHub 및 Hugging Face를 통해 공개적으로 제공됩니다.
시사점, 한계점
•
시사점:
◦
다양한 펩타이드 기능과 PTM 부위에 대한 강력하고 정확한 식별을 가능하게 하는 통합 심층 학습 프레임워크 제공.
◦
항균, 인산화 부위 식별 등 다양한 생물학적 식별 작업에서 최첨단 성능 달성.
◦
데이터 불균형 문제 해결을 위한 전략 구현.
◦
해석 가능한 펩타이드 표현 제공.
◦
생의학 연구 및 새로운 치료 표적 발견 지원.
◦
코드, 데이터 세트 및 미리 훈련된 모델 공개.
•
한계점:
◦
33가지 작업 중 8가지 작업에서는 최첨단 성능을 달성하지 못함. (명시적으로 언급된 것은 아니지만, 최첨단 성능 달성률이 100%가 아니므로 한계점으로 간주)
◦
특정 PTM이나 펩타이드 기능에 대한 일반화 성능은 추가적인 연구가 필요할 수 있음. (암시적 한계점)