M³-20M은 2천만 개 이상의 분자를 포함하는 대규모 다중 모달 분자 데이터셋으로, 기존 데이터베이스에서 통합하고 일부는 대규모 언어 모델을 사용하여 생성되었습니다. AI 기반 약물 설계 및 발견을 지원하도록 설계되었으며, 기존 최대 데이터셋보다 71배 많은 분자 수를 제공하여 모델(약물 설계 및 발견 작업을 위한 대규모 언어 모델 포함)의 학습 또는 미세 조정에 큰 도움이 됩니다. 1차원 SMILES, 2차원 분자 그래프, 3차원 분자 구조, 물리화학적 특성 및 웹 크롤링을 통해 수집하고 GPT-3.5를 사용하여 생성된 텍스트 설명을 통합하여 각 분자에 대한 포괄적인 관점을 제공합니다. GLM4, GPT-3.5, GPT-4 및 Llama3-8b를 포함한 대규모 언어 모델을 사용하여 분자 생성 및 분자 특성 예측이라는 두 가지 주요 작업에 대한 광범위한 실험을 통해 M³-20M의 성능을 입증했습니다. 실험 결과, M³-20M은 두 작업 모두에서 모델 성능을 크게 향상시키는 것으로 나타났습니다. 특히, 기존 단일 모달 데이터셋보다 더 다양하고 유효한 분자 구조를 생성하고 더 높은 특성 예측 정확도를 달성하여 AI 기반 약물 설계 및 발견을 지원하는 M³-20M의 가치와 잠재력을 검증했습니다. 데이터셋은 https://github.com/bz99bz/M-3 에서 이용 가능합니다.