Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Structure-Aligned Protein Language Model

Created by
  • Haebom

저자

Can Chen, David Heurtel-Depeiges, Robert M. Vernon, Christopher James Langmead, Yoshua Bengio, Quentin Fournier

개요

본 논문은 단백질 서열 데이터베이스를 사전 학습한 단백질 언어 모델(pLM)이 다양한 downstream task에서 뛰어난 성능을 보이지만, 많은 생물학적 응용에 필수적인 구조적 지식이 부족하다는 문제를 해결하고자 한다. 이를 위해, 사전 학습된 단백질 그래프 신경망(pGNN)의 구조적 통찰력을 잠재 변수 수준의 대조 학습 과제를 통해 pLM에 통합한다. 이 과제는 여러 단백질에 걸쳐 pLM과 pGNN의 잔기 표현을 정렬하여 pLM에 단백질 간 구조적 지식을 풍부하게 한다. 또한, pLM이 구조 토큰을 예측하도록 최적화하여 단백질 내 구조적 지식을 주입하는 물리적 수준의 과제를 통합한다. 제안된 이중 과제 프레임워크는 pLM에 단백질 간 및 단백질 내 구조적 지식을 효과적으로 통합한다. PDB의 단백질 구조 품질의 변동성을 고려하여, 고품질 구조를 기반으로 학습된 소규모 모델을 사용하여 pLM이 학습할 신뢰할 수 있으면서도 어려운 잔기 손실을 선택하는 잔기 손실 선택 모듈을 추가로 도입한다. 최첨단 ESM2 및 AMPLIFY에 구조 정렬 방법을 적용하여 접촉 예측에서 12.7% 증가를 포함한 광범위한 과제에서 눈에 띄는 성능 향상을 달성했다. 데이터, 코드 및 결과 SaESM2 및 SaAMPLIFY 모델은 Hugging Face에 공개될 예정이다.

시사점, 한계점

시사점:
pLM에 단백질 구조 정보를 효과적으로 통합하는 새로운 방법 제시
단백질 간 및 단백질 내 구조 정보를 동시에 활용
잔기 손실 선택 모듈을 통해 학습 효율 및 성능 향상
ESM2 및 AMPLIFY 모델의 성능을 상당히 개선 (예: ESM2 접촉 예측 12.7% 증가)
재현 가능성을 위해 데이터, 코드 및 모델 공개
한계점:
PDB 데이터의 품질 편차에 대한 의존성 (잔기 손실 선택 모듈의 성능에 영향)
pGNN의 사전 학습된 구조 정보의 정확성에 대한 의존성
다양한 단백질 구조 유형에 대한 일반화 성능 평가 필요
대규모 데이터셋에 대한 계산 비용 고려 필요
👍