Sign In

Aligning Large Language Models and Geometric Deep Models for Protein Representation

Created by
  • Haebom
Category
Empty

저자

Dong Shu, Bingbing Duan, Kai Guo, Kaixiong Zhou, Jiliang Tang, Mengnan Du

개요

본 논문은 단백질 도메인에서 다중 모달 대규모 언어 모델(MLLM) 구성을 위한 잠재 표현 정렬에 대해 연구합니다. 기존 단백질 중심 MLLM들이 휴리스틱 접근 방식에 의존하는 것과 달리, 본 연구는 대규모 언어 모델(LLM)과 기하 심층 모델(GDM) 간의 최적 정렬 방법에 대한 심층적인 이해를 추구합니다. 세 가지 최첨단 LLM(Gemma2-2B, LLaMa3.1-8B, LLaMa3.1-70B)과 네 가지 단백질 특화 GDM(GearNet, GVP, ScanNet, GAT)을 사용하여 광범위한 실험을 진행하고, 모델 및 단백질 관점에서 정렬 요소를 분석합니다. 그 결과, 그래프와 3D 구조 정보를 모두 포함하는 GDM이 LLM과 더 잘 정렬되고, 더 큰 LLM이 향상된 정렬 성능을 보이며, 단백질 희귀성이 정렬 성능에 상당한 영향을 미친다는 것을 발견했습니다. 또한, GDM 임베딩 차원을 늘리고, 2층 투영 헤드를 사용하고, 단백질 특정 데이터로 LLM을 미세 조정하는 것이 정렬 품질을 크게 향상시킨다는 것을 확인했습니다. 본 연구의 코드와 데이터는 https://github.com/Tizzzzy/LLM-GDM-alignment 에서 이용 가능합니다.

시사점, 한계점

시사점:
그래프 및 3D 구조 정보를 통합한 GDM은 LLM과의 정렬 성능이 더 우수함을 확인했습니다.
LLM의 크기가 클수록 정렬 성능이 향상됨을 보였습니다.
단백질의 희귀성이 정렬 성능에 큰 영향을 미침을 밝혔습니다.
GDM 임베딩 차원 증가, 2층 투영 헤드 사용, 단백질 특이적 데이터를 이용한 LLM 미세 조정 등이 정렬 품질 향상에 기여함을 제시했습니다.
본 연구 결과는 단백질 관련 다중 모달 모델의 성능 향상에 기여할 수 있는 잠재력을 가지고 있습니다.
한계점:
본 연구에서 사용된 LLM과 GDM의 종류 및 구성에 따라 결과가 달라질 수 있습니다. 다양한 모델에 대한 추가적인 연구가 필요합니다.
단백질 데이터셋의 편향성이 결과에 영향을 미칠 수 있습니다. 더욱 다양하고 균형 잡힌 데이터셋을 사용한 추가 연구가 필요합니다.
최적의 정렬 전략은 단백질 유형, LLM 및 GDM의 선택에 따라 달라질 수 있습니다. 보다 일반화된 정렬 전략 개발이 필요합니다.
👍