Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Fine-Tuning ChemBERTa for Predicting Inhibitory Activity Against TDP1 Using Deep Learning

Created by
  • Haebom
Category
Empty

저자

Baichuan Zeng

개요

본 논문은 암 화학 저항성을 극복하기 위한 핵심 표적인 Tyrosyl-DNA Phosphodiesterase 1 (TDP1)에 대한 소분자 억제 활성을 예측하기 위해, 사전 훈련된 화학 언어 모델인 ChemBERTa를 fine-tuning하여 분자 SMILES 문자열로부터 pIC50 값을 정량적으로 회귀하는 딥러닝 프레임워크를 제시한다. 177,092개 화합물의 대규모 데이터셋을 활용하여, MLM(Masked Language Modeling) 및 MTR(Masked Token Regression)의 두 가지 사전 훈련 전략을 평가하고, 활성 화합물이 2.1%에 불과한 심각한 활성 불균형 문제를 해결하기 위해 계층적 데이터 분할 및 샘플 가중치를 적용했다. 제안하는 모델은 회귀 정확도와 가상 스크리닝 유틸리티 측면에서 고전적인 baseline을 능가하며, Random Forest와 경쟁적인 성능을 보였다. 실험 테스트를 위한 TDP1 억제제 우선순위 지정을 위한 강력하고 즉시 사용할 수 있는 도구를 제공하며, SMILES로부터 직접적인 3D 구조 없이 pIC50 예측을 가능하게 함으로써, 표적 특이적 약물 발견을 가속화하는 화학 변환기의 잠재력을 보여준다.

시사점, 한계점

TDP1 억제제 예측을 위한 딥러닝 모델 개발
대규모 데이터셋과 ChemBERTa fine-tuning 활용
활성 불균형 문제 해결을 위한 전략 적용 (계층적 데이터 분할, 샘플 가중치)
회귀 정확도 및 가상 스크리닝 성능 향상
Random Forest와 경쟁적인 성능
3D 구조 없이 SMILES로부터 pIC50 예측 가능
실험 테스트를 위한 TDP1 억제제 우선순위 지정 도구 제공
모델의 일반화 성능에 대한 추가적인 검증 필요
다른 표적에 대한 일반화 가능성 연구 필요
실험 데이터와의 상관관계 추가 분석 필요
👍