Sign In

Transformers for molecular property prediction: Domain adaptation efficiently improves performance

Created by
  • Haebom
Category
Empty

저자

Afnan Sultan, Max Rausch-Dupont, Shahrukh Khan, Olga Kalinina, Andrea Volkamer, Dietrich Klakow

개요

본 연구는 거대 분자 데이터셋으로 사전 훈련된 Transformer 기반 화학 언어 모델의 성능 향상에 대한 한계를 조사하고 극복하는 것을 목표로 합니다. GuacaMol 데이터셋을 이용하여 사전 훈련 데이터셋 크기와 다양성이 Transformer 모델의 분자 특성 예측 성능에 미치는 영향을 분석하고, 도메인 적응 기법을 활용하여 성능 개선 가능성을 탐구했습니다. 연구 결과, GuacaMol 데이터셋에서 400,000개 분자를 초과하는 사전 훈련 데이터셋 크기 증가는 용해도, 투과성, 미소체 안정성, 혈장 단백질 결합과 같은 네 가지 ADME 지표에 대한 성능 향상에 미치는 영향이 미미함을 확인했습니다. 반면, 소규모의 도메인 관련 분자 (수백에서 수천 개)를 이용한 도메인 적응을 통해 물리화학적 특성의 다중 과제 회귀 분석으로 네 가지 ADME 지표 중 세 가지에서 성능이 유의미하게 향상됨을 보였습니다 (P-값 < 0.001). 400,000개 분자로 사전 훈련하고 소규모 분자로 도메인 적응된 모델은 MolBERT (130만 개 분자 사전 훈련)나 MolFormer (1억 개 분자 사전 훈련)와 같은 복잡한 Transformer 모델과 유사한 성능을 보였습니다 (P-값 > 0.05). 기본적인 물리화학적 특성으로 훈련된 Random Forest 모델과도 유사한 성능을 보였습니다. 본 연구는 사전 훈련 및 downstream 데이터, 사전 훈련 목표, scaling laws에 대한 체계적인 분석을 통해 Transformer 모델을 개선할 수 있음을 시사합니다.

시사점, 한계점

시사점:
400,000개 이상의 분자를 사용한 거대 데이터셋으로의 사전 훈련은 ADME 예측 성능 향상에 제한적인 효과를 가짐을 확인했습니다.
소규모 도메인 관련 데이터를 이용한 도메인 적응 기법이 ADME 예측 성능을 유의미하게 향상시킬 수 있음을 보였습니다.
복잡한 대규모 사전 훈련 모델보다 소규모 데이터로 도메인 적응된 모델이 유사한 성능을 보일 수 있음을 확인했습니다.
기존 Transformer 모델의 성능 개선을 위해 사전 훈련 및 downstream 데이터, 사전 훈련 목표, scaling laws에 대한 체계적인 분석이 필요함을 시사합니다.
한계점:
연구에 사용된 ADME 지표가 네 가지로 제한적입니다.
다양한 종류의 분자와 화학적 특성에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.
도메인 적응에 사용된 데이터의 선택 기준 및 방법론에 대한 상세한 설명이 부족합니다.
Random Forest 모델과의 비교를 통해 Transformer 모델의 우위를 명확히 보여주지 못했습니다.
👍