PDeepPP는 다양한 펩타이드 기능 전반에 걸쳐 강력한 식별을 가능하게 하는 사전 훈련된 단백질 언어 모델과 하이브리드 변환기-합성곱 아키텍처를 통합한 통합 딥 러닝 프레임워크입니다. 광범위한 벤치마크 데이터 세트를 큐레이션하고 데이터 불균형을 해결하기 위한 전략을 구현하여 전역 및 지역 시퀀스 기능을 체계적으로 추출합니다. 차원 축소 및 비교 연구를 포함한 광범위한 분석을 통해 PDeepPP는 강력하고 해석 가능한 펩타이드 표현을 보여주며 33가지 생물학적 식별 작업 중 25가지에서 최첨단 성능을 달성합니다. 특히 항균(0.9726), 인산화 부위(0.9984) 식별에서 높은 정확도를 달성하고, 당화 부위 예측에서 99.5%의 특이도를 달성하며, 항말라리아 작업에서 위음성을 상당히 줄였습니다. 대규모 정확한 펩타이드 분석을 가능하게 함으로써 PDeepPP는 생의학 연구와 질병 치료를 위한 새로운 치료 표적 발견을 지원합니다. 모든 코드, 데이터 세트 및 사전 훈련된 모델은 GitHub(https://github.com/fondress/PDeepPP) 및 Hugging Face(https://huggingface.co/fondress/PDeppPP)를 통해 공개적으로 이용 가능합니다.