Sign In

Transformers for molecular property prediction: Domain adaptation efficiently improves performance

Created by
  • Haebom
Category
Empty

저자

Afnan Sultan, Max Rausch-Dupont, Shahrukh Khan, Olga Kalinina, Andrea Volkamer, Dietrich Klakow

개요

본 논문은 거대 언어 모델 기반의 분자 특성 예측 모델의 성능 향상에 대한 연구 결과를 제시합니다. 기존의 Transformer 기반 화학 언어 모델들은 수백만에서 수십억 개의 분자 데이터로 사전 훈련되지만, 데이터셋 크기 증가에 따른 성능 향상이 일관되지 않다는 점에 착안하여, 사전 훈련 데이터셋의 크기와 다양성, 그리고 도메인 적응 기법의 효과를 분석했습니다. 실험 결과, GuacaMol 데이터셋을 이용하여 400,000개 이상의 분자로 사전 훈련하는 것은 용해도, 투과성, 미크로솜 안정성, 혈장 단백질 결합 등 4가지 ADME 특성 예측 성능에 큰 향상을 가져오지 못했습니다. 반면, 소규모 도메인 관련 분자 데이터(수백에서 수천 개)를 이용한 도메인 적응 기법을 통해 4가지 ADME 특성 중 3가지에 대한 성능이 유의미하게 향상되었으며 (P-value < 0.001), 400,000개의 분자로 사전 훈련 후 도메인 적응을 거친 모델은 MolBERT나 MolFormer와 같은 대규모 모델과 유사한 성능을 보였습니다 (P-value > 0.05). 기본적인 물리화학적 특성을 이용한 Random Forest 모델과도 유사한 성능을 보였습니다. 결론적으로, 사전 훈련 데이터, 하위 작업 데이터, 사전 훈련 목표 및 스케일링 법칙에 대한 체계적인 분석을 통해 Transformer 모델의 성능을 향상시킬 수 있음을 시사합니다.

시사점, 한계점

시사점:
대규모 데이터셋으로의 사전 훈련이 항상 성능 향상으로 이어지지 않음을 확인했습니다.
소규모 도메인 특화 데이터를 이용한 도메인 적응이 Transformer 모델의 성능을 유의미하게 향상시킬 수 있음을 보였습니다.
적절한 도메인 적응을 통해 대규모 모델과 비슷한 성능을 소규모 모델로 달성할 수 있음을 제시했습니다.
Transformer 모델의 성능 향상을 위한 사전 훈련 및 하위 작업 데이터, 사전 훈련 목표, 스케일링 법칙에 대한 추가 연구의 필요성을 제기했습니다.
한계점:
분석된 ADME 특성이 제한적입니다 (4가지 특성).
다른 종류의 분자 특성 예측에 대한 일반화 가능성이 검증되지 않았습니다.
사전 훈련 및 도메인 적응 전략에 대한 더욱 체계적인 연구가 필요합니다.
Random Forest와 비슷한 성능을 보임으로써 Transformer 모델의 절대적 우위를 보이지 못했습니다.
👍