본 연구는 거대 분자 데이터셋으로 사전 훈련된 Transformer 기반 화학 언어 모델의 성능 향상에 대한 한계를 조사하고 극복하는 것을 목표로 합니다. GuacaMol 데이터셋을 이용하여 사전 훈련 데이터셋 크기와 다양성이 Transformer 모델의 분자 특성 예측 성능에 미치는 영향을 분석하고, 도메인 적응 기법을 활용하여 성능 개선 가능성을 탐구했습니다. 연구 결과, GuacaMol 데이터셋에서 400,000개 분자를 초과하는 사전 훈련 데이터셋 크기 증가는 용해도, 투과성, 미소체 안정성, 혈장 단백질 결합과 같은 네 가지 ADME 지표에 대한 성능 향상에 미치는 영향이 미미함을 확인했습니다. 반면, 소규모의 도메인 관련 분자 (수백에서 수천 개)를 이용한 도메인 적응을 통해 물리화학적 특성의 다중 과제 회귀 분석으로 네 가지 ADME 지표 중 세 가지에서 성능이 유의미하게 향상됨을 보였습니다 (P-값 < 0.001). 400,000개 분자로 사전 훈련하고 소규모 분자로 도메인 적응된 모델은 MolBERT (130만 개 분자 사전 훈련)나 MolFormer (1억 개 분자 사전 훈련)와 같은 복잡한 Transformer 모델과 유사한 성능을 보였습니다 (P-값 > 0.05). 기본적인 물리화학적 특성으로 훈련된 Random Forest 모델과도 유사한 성능을 보였습니다. 본 연구는 사전 훈련 및 downstream 데이터, 사전 훈련 목표, scaling laws에 대한 체계적인 분석을 통해 Transformer 모델을 개선할 수 있음을 시사합니다.