본 논문은 기존 텍스트-분자 모델의 한계점인 원자 단위 토큰화로 인한 전역 구조 정보 포착의 어려움을 해결하기 위해, 하위 구조 단위 토큰화를 도입한 새로운 텍스트-분자 모델 CAMT5를 제안합니다. CAMT5는 하위 구조(예: 고리 시스템)의 중요성에 착안하여, 중요 하위 구조를 우선적으로 학습하는 중요도 기반 학습 전략을 사용합니다. 실험 결과, CAMT5는 기존 최첨단 모델들을 능가하는 성능을 보이며, 특히 2%의 학습 토큰만 사용해도 우수한 성능을 달성합니다. 또한, 텍스트-분자 모델들의 출력을 집계하는 효과적인 앙상블 전략을 제시합니다.