본 논문은 거대 언어 모델 기반의 분자 특성 예측 모델의 성능 향상에 대한 연구 결과를 제시합니다. 기존의 Transformer 기반 화학 언어 모델들은 수백만에서 수십억 개의 분자 데이터로 사전 훈련되지만, 데이터셋 크기 증가에 따른 성능 향상이 일관되지 않다는 점에 착안하여, 사전 훈련 데이터셋의 크기와 다양성, 그리고 도메인 적응 기법의 효과를 분석했습니다. 실험 결과, GuacaMol 데이터셋을 이용하여 400,000개 이상의 분자로 사전 훈련하는 것은 용해도, 투과성, 미크로솜 안정성, 혈장 단백질 결합 등 4가지 ADME 특성 예측 성능에 큰 향상을 가져오지 못했습니다. 반면, 소규모 도메인 관련 분자 데이터(수백에서 수천 개)를 이용한 도메인 적응 기법을 통해 4가지 ADME 특성 중 3가지에 대한 성능이 유의미하게 향상되었으며 (P-value < 0.001), 400,000개의 분자로 사전 훈련 후 도메인 적응을 거친 모델은 MolBERT나 MolFormer와 같은 대규모 모델과 유사한 성능을 보였습니다 (P-value > 0.05). 기본적인 물리화학적 특성을 이용한 Random Forest 모델과도 유사한 성능을 보였습니다. 결론적으로, 사전 훈련 데이터, 하위 작업 데이터, 사전 훈련 목표 및 스케일링 법칙에 대한 체계적인 분석을 통해 Transformer 모델의 성능을 향상시킬 수 있음을 시사합니다.