본 논문은 대규모 언어 모델(LLM)을 화학 분야에 적용할 때 발생하는 '토큰화 병목 현상'을 해결하기 위한 방법론을 제시한다. 기존의 일반적인 텍스트 기반 토크나이저는 화학 구조(SMILES 등)를 의미 없는 하위 토큰으로 분해하는 경향이 있는데, 이를 해결하기 위해 저자들은 자연어와 분자 구조를 단일 모델 내에서 통합하는 접근 방식을 제안한다. 구체적으로, 사전 훈련된 LLM의 어휘를 화학적으로 중요한 토큰으로 확장하고, 이 새로운 지식을 통합하기 위해 화학 도메인 텍스트로 추가 사전 훈련을 수행한다. 이 방법론을 통해 다양한 화학 관련 작업에서 향상된 성능을 보임을 실험적으로 입증했다.