본 논문은 단백질 과학 분야에서 대규모 언어 모델(LLM)의 한계를 극복하기 위해, 단백질 서열, 구조, 텍스트 정보를 통합된 불연속 공간으로 토큰화하는 새로운 프레임워크인 ProtTeX를 제시합니다. ProtTeX는 Next-Token Prediction 패러다임을 통해 LLM을 단독으로 훈련하여 다중 모드 단백질 추론 및 생성을 가능하게 합니다. 이를 통해 기존 LLM이 단백질 구조를 순차적 텍스트 입력으로 인식하고 처리하며, 구조 정보를 중간 추론 구성 요소로 활용하고, 순차적 텍스트 출력을 통해 구조를 생성하거나 조작할 수 있도록 합니다. 실험 결과, ProtTeX는 기존 최고 성능 모델보다 정확도가 두 배 향상된 단백질 기능 예측 성능을 보이며, 고품질의 구조 생성 및 맞춤형 단백질 설계를 가능하게 함을 보여줍니다. 본 연구는 표준 LLM 훈련 및 추론 파이프라인을 채택하여 다양한 단백질 관련 작업에 효과적으로 대처할 수 있음을 처음으로 입증합니다.
시사점, 한계점
•
시사점:
◦
단백질 구조 정보를 활용하여 LLM의 단백질 과학 분야 적용 가능성을 획기적으로 향상시켰습니다.
◦
기존 최고 성능 모델을 능가하는 단백질 기능 예측 정확도를 달성했습니다.
◦
고품질의 단백질 구조 생성 및 맞춤형 단백질 설계를 가능하게 합니다.
◦
표준 LLM 훈련 및 추론 파이프라인을 활용하여 다양한 단백질 관련 작업에 적용 가능성을 확장했습니다.