ProteinGPT: Multimodal LLM for Protein Property Prediction and Structure Understanding
Created by
Haebom
저자
Yijia Xiao, Edward Sun, Yiqiao Jin, Qifan Wang, Wei Wang
개요
ProteinGPT는 단백질 서열 및 구조 분석을 위한 최첨단 다중 모달 대규모 언어 모델입니다. 단백질 서열 및/또는 구조를 업로드하여 포괄적인 분석 및 질문에 대한 응답을 얻을 수 있습니다. 단백질 서열 및 구조 인코더와 선형 투영 레이어를 통합하여 정확한 표현 적응을 보장하며, 대규모 언어 모델(LLM)을 활용하여 정확하고 문맥에 맞는 응답을 생성합니다. 132,092개의 단백질로 구성된 대규모 데이터셋을 사용하여 GPT-4o로 instruction-tuning을 통해 학습되었으며, 단백질 관련 질문에 대한 정보가 풍부한 응답을 효과적으로 생성하고, 기준 모델 및 범용 LLM보다 성능이 뛰어납니다. 코드와 데이터는 https://github.com/ProteinGPT/ProteinGPT 에서 이용 가능합니다.