본 논문은 단백질 과학에서 대규모 언어 모델(LLM)의 한계를 극복하기 위해, 단백질 서열, 구조, 텍스트 정보를 통합된 이산 공간으로 토큰화하는 새로운 프레임워크인 ProtTeX를 제시합니다. ProtTeX는 다음 토큰 예측 패러다임을 통해 LLM을 단독으로 훈련하여 다중 모드 단백질 추론 및 생성을 가능하게 합니다. 기존의 아미노산 서열만을 토큰으로 사용하는 방식과 달리, 구조 정보를 활용하여 단백질 기능 예측 정확도를 기존 최고 성능 모델보다 두 배 향상시키는 등 다양한 단백질 관련 작업에서 성능 향상을 보였습니다. 또한 고품질의 구조 생성 및 맞춤형 단백질 설계를 가능하게 합니다.
시사점, 한계점
•
시사점:
◦
단백질 구조 정보를 LLM에 효과적으로 통합하는 새로운 방법 제시.
◦
단백질 기능 예측, 구조 생성, 단백질 설계 등 다양한 작업에서 성능 향상.
◦
기존 LLM의 훈련 및 추론 파이프라인을 활용하여 다양한 단백질 관련 작업에 적용 가능성을 보임.