Rethinking Text-based Protein Understanding: Retrieval or LLM?
Created by
Haebom
저자
Juntong Wu, Zijing Liu, He Cao, Hao Li, Bin Feng, Zishan Shu, Ke Yu, Li Yuan, Yu Li
개요
본 논문은 단백질 생성 및 이해에 대한 잠재력으로 주목받고 있는 단백질-텍스트 모델을 다룬다. 기존 접근 방식은 추가적인 사전 훈련 및 다중 모드 정렬을 통해 대규모 언어 모델에 단백질 관련 지식을 통합하여 텍스트 설명과 단백질 서열을 동시에 이해하도록 한다. 하지만, 기존 모델 아키텍처와 텍스트 기반 단백질 이해 벤치마크에 대한 철저한 분석을 통해, 현재 벤치마크에 심각한 데이터 누출 문제가 있음을 밝혀냈다. 또한, 기존의 자연어 처리에서 파생된 지표는 이 분야에서 모델의 성능을 정확하게 평가하지 못한다. 이러한 한계를 해결하기 위해 기존 데이터셋을 재구성하고 생물학적 개체에 기반한 새로운 평가 프레임워크를 제시한다. 관찰 결과를 바탕으로, 미세 조정된 대규모 언어 모델보다 단백질-텍스트 생성에서 성능이 훨씬 뛰어나고 훈련이 필요 없는 시나리오에서 정확성과 효율성을 보이는 검색 향상 방법을 제안한다. 코드와 데이터는 https://github.com/IDEA-XL/RAPM 에서 확인할 수 있다.