Protein Structure Tokenization via Geometric Byte Pair Encoding
Created by
Haebom
Category
Empty
저자
Michael Sun, Weize Yuan, Gang Liu, Wojciech Matusik, Marinka Zitnik
개요
GeoBPE는 단백질 구조 토큰화(PST)를 위한 새로운 접근 방식입니다. 연속적이고 잡음이 많은 다중 스케일 백본 컨포메이션을 기하학적 "문장"으로 변환하며, 전역 제약을 적용합니다. GeoBPE는 기하학적 기본 요소의 계층적 어휘를 생성하며, k-medoids를 사용한 클러스터링, 각 Geo-Pair의 프로토타입 양자화, 차별적 역기구학을 통한 드리프트 감소를 통해 작동합니다.
시사점, 한계점
•
시사점:
◦
압축 성능 향상 (비트당 잔기 감소 >10x, 유사한 왜곡률).
◦
데이터 효율성 증가 (훈련 데이터 >10x 감소).
◦
일반화 성능 유지 (테스트/훈련 왜곡 비율 1.0-1.1).
◦
아키텍처에 독립적: PLM (Protein Language Model)에서 모티프 및 단백질 수준 표현으로의 코어닝, 12개의 작업 및 24개의 테스트 분할에서 기존 PST를 능가함.
◦
변환기와 함께 사용 시 언어 모델링을 통한 무조건적 백본 생성 지원.
◦
CATH 기능적 패밀리와 일치하며 전문가가 해석할 수 있는 사례 연구를 지원하여 기존 PST에서 부족했던 기능적 의미를 제공.