MolTextNet: A Two-Million Molecule-Text Dataset for Multimodal Molecular Learning
Created by
Haebom
저자
Yihan Zhu, Gang Liu, Eric Inae, Meng Jiang
개요
본 논문은 기존 분자-텍스트 데이터셋의 한계를 극복하기 위해 250만 개의 고품질 분자-텍스트 쌍으로 구성된 MolTextNet 데이터셋을 제시합니다. 구조적 특징, 계산된 특성, 생물 활성 데이터 및 합성 복잡성을 통합하는 합성 텍스트 생성 파이프라인을 통해 GPT-4o-mini를 이용하여 ChEMBL35의 250만 개 분자에 대한 구조화된 설명을 생성하였으며, 기존 데이터셋보다 10배 이상 긴 텍스트를 포함합니다. MolTextNet은 특성 예측 및 구조 검색을 포함한 다양한 downstream task를 지원하며, Graph Neural Networks와 ModernBERT를 사용하여 CLIP 스타일 모델을 사전 훈련시킨 결과 성능 향상을 보였습니다. 데이터셋은 https://huggingface.co/datasets/liuganghuggingface/moltextnet 에서 이용 가능합니다.