Aligning Large Language Models and Geometric Deep Models for Protein Representation
Created by
Haebom
Category
Empty
저자
Dong Shu, Bingbing Duan, Kai Guo, Kaixiong Zhou, Jiliang Tang, Mengnan Du
개요
본 논문은 단백질 도메인에서 다중 모달 대규모 언어 모델(MLLM) 구성을 위한 잠재 표현 정렬에 대해 연구합니다. 기존 단백질 중심 MLLM들이 휴리스틱 접근 방식에 의존하는 것과 달리, 본 연구는 대규모 언어 모델(LLM)과 기하 심층 모델(GDM) 간의 최적 정렬 방법에 대한 심층적인 이해를 추구합니다. 세 가지 최첨단 LLM(Gemma2-2B, LLaMa3.1-8B, LLaMa3.1-70B)과 네 가지 단백질 특화 GDM(GearNet, GVP, ScanNet, GAT)을 사용하여 광범위한 실험을 진행하고, 모델 및 단백질 관점에서 정렬 요소를 분석합니다. 그 결과, 그래프와 3D 구조 정보를 모두 포함하는 GDM이 LLM과 더 잘 정렬되고, 더 큰 LLM이 향상된 정렬 성능을 보이며, 단백질 희귀성이 정렬 성능에 상당한 영향을 미친다는 것을 발견했습니다. 또한, GDM 임베딩 차원을 늘리고, 2층 투영 헤드를 사용하고, 단백질 특정 데이터로 LLM을 미세 조정하는 것이 정렬 품질을 크게 향상시킨다는 것을 확인했습니다. 본 연구의 코드와 데이터는 https://github.com/Tizzzzy/LLM-GDM-alignment 에서 이용 가능합니다.