UniMoT: Unified Molecule-Text Language Model with Discrete Token Representation
Created by
Haebom
저자
Shuhan Guo, Yatao Bian, Ruibing Wang, Nan Yin, Zhen Wang, Quanming Yao
개요
본 논문은 분자 응용 분야에 대한 대규모 언어 모델(LLM)의 확장을 다룹니다. 기존의 대부분 분자 LLM은 어댑터 기반 아키텍처를 사용하여 분자 및 텍스트 모달리티를 동등하게 다루지 못하고 분자 모달리티에 대한 감독 신호가 부족한 한계를 가지고 있습니다. 이를 해결하기 위해, 본 논문은 분자 토큰으로 LLM의 어휘를 확장하는 토크나이저 기반 아키텍처를 채택한 통합 분자-텍스트 LLM인 UniMoT를 제시합니다. UniMoT는 벡터 양자화 기반 토크나이저와 모달리티 간격을 해소하는 Q-Former를 도입하여 분자를 인과적 의존성을 가진 분자 토큰 시퀀스로 변환합니다. 이를 통해 분자와 텍스트 모달리티를 공유 토큰 표현과 자기회귀 학습 패러다임 하에 통합하여 분자를 외국어로 해석하고 텍스트로 생성할 수 있도록 합니다. 4단계 학습 방식을 통해 UniMoT는 분자-텍스트 및 텍스트-분자 작업을 수행할 수 있는 다모달 일반화 모델로 등장하며, 광범위한 분자 이해 및 생성 작업에서 최첨단 성능을 달성함을 실험을 통해 보여줍니다.