mCLM: A Function-Infused and Synthesis-Friendly Modular Chemical Language Model
Created by
Haebom
저자
Carl Edwards, Chi Han, Gawon Lee, Thao Nguyen, Bowen Jin, Chetan Kumar Prasad, Sara Szymkuc, Bartosz A. Grzybowski, Ying Diao, Jiawei Han, Ge Liu, Hao Peng, Martin D. Burke, Heng Ji
개요
본 논문은 대규모 언어 모델(LLM)이 약물과 같은 특성을 가진 새로운 분자를 제안하는 데 제한적이며, 제안된 분자의 실험실 합성이 어렵다는 문제점을 지적합니다. 이를 해결하기 위해, 문자 대신 (하위)단어 토큰으로 텍스트를 토큰화하는 것처럼, 분자를 기능적 구성 요소(독특한 기능을 제공하고 실제 자동화된 실험실 합성을 위한 효과적인 구성 요소 역할을 하는 분자 부분) 수준으로 분해 및 재조립해야 한다고 주장합니다. 따라서 기능에 대한 자연어 설명과 분자 구성 요소 모두를 포함하는 이중 언어 모델을 학습하는 모듈형 화학-언어 모델(mCLM)을 제안합니다. mCLM은 기능적 구성 요소를 기반으로 추론하여 블록 기반 화학의 최근 발전 덕분에 효율적으로 합성 가능한 분자를 생성하고, 원리에 입각하여 분자 기능을 개선합니다. 430개의 FDA 승인 약물에 대한 실험에서, mCLM은 약물 잠재력을 결정하는 데 중요한 6가지 화학적 기능 중 5가지 기능을 상당히 개선하는 것으로 나타났습니다. 더 중요한 것은, mCLM이 여러 기능에 대해 추론하고 여러 반복을 통해 FDA에서 거부된 약물(``fallen angels'')을 개선하여 단점을 크게 개선할 수 있다는 점입니다.
시사점, 한계점
•
시사점:
◦
분자를 기능적 구성 요소로 분해하여 LLM의 분자 생성 능력을 향상시키는 새로운 접근법을 제시합니다.
◦
블록 기반 화학을 활용하여 효율적으로 합성 가능한 새로운 분자를 생성할 수 있습니다.
◦
FDA 승인 약물의 화학적 기능을 개선하고, 부적합 약물의 단점을 개선하는 데 효과적임을 보여줍니다.
◦
다중 기능에 대한 추론을 통해 약물 설계의 새로운 가능성을 제시합니다.
•
한계점:
◦
제안된 mCLM 모델의 일반화 성능 및 다양한 화합물 클래스에 대한 적용 가능성에 대한 추가 연구가 필요합니다.
◦
실제 약물 개발 과정에서의 mCLM의 효용성을 검증하기 위한 추가적인 실험 및 임상 연구가 필요합니다.