본 논문은 분자 과학에서 분자와 자연어 표현을 통합하는 연구에 초점을 맞추고 있으며, 특히 3차원(3D) 정보의 부재라는 기존 접근 방식의 한계를 해결하기 위해 제안된 3D-MolT5 프레임워크를 소개한다. 3D-MolT5는 미세한 3D 하위 구조 표현을 특수한 3D 토큰 어휘에 매핑하여 시퀀스와 구조 표현을 토큰화된 형식으로 통합함으로써, 분자 시퀀스, 분자 구조, 텍스트 시퀀스를 통합된 아키텍처 내에서 인코딩한다. 다중 작업 목표를 사용한 공동 사전 훈련을 통해 다양한 모달리티에 대한 모델의 이해를 향상시키고, 모달리티 간 상호 작용 및 정렬을 개선한다. 결과적으로 여러 하위 작업에서 기존 방법보다 우수한 성능을 보이며 강력한 일반화 능력을 보여준다.