Protap: A Benchmark for Protein Modeling on Realistic Downstream Applications
Created by
Haebom
저자
Shuo Yan, Yuliang Yan, Bin Ma, Chenao Li, Haochun Tang, Jiahua Lu, Minhua Lin, Yuyuan Feng, Hui Xiong, Enyan Dai
개요
본 논문은 다양한 하위 단백질 응용 프로그램에서 백본 아키텍처, 사전 훈련 전략 및 도메인별 모델을 체계적으로 비교하는 포괄적인 벤치마크인 Protap을 소개합니다. Protap은 세 가지 일반적인 작업과 효소 촉매 단백질 절단 부위 예측 및 표적 단백질 분해와 같은 두 가지 새로운 특수 작업을 포함한 다섯 가지 응용 프로그램을 다룹니다. 각 응용 프로그램에 대해 Protap은 여러 사전 훈련 설정에서 다양한 도메인별 모델과 일반 아키텍처를 비교합니다. 실험 연구 결과, 대규모 사전 훈련 인코더는 뛰어난 결과를 달성하지만, 소규모 하위 훈련 세트에서 훈련된 감독 인코더보다 성능이 떨어지는 경우가 많다는 것을 보여줍니다. 또한, 하위 미세 조정 중 구조 정보를 통합하면 대규모 시퀀스 코퍼스에서 사전 훈련된 단백질 언어 모델과 동등하거나 더 나은 성능을 발휘할 수 있으며, 도메인별 생물학적 사전 정보는 특수 하위 작업의 성능을 향상시킬 수 있습니다. 코드와 데이터 세트는 https://github.com/Trust-App-AI-Lab/protap 에서 공개적으로 제공됩니다.