Efficient Evolutionary Search Over Chemical Space with Large Language Models
Created by
Haebom
Category
Empty
저자
Haorui Wang, Marta Skreta, Cher-Tian Ser, Wenhao Gao, Lingkai Kong, Felix Strieth-Kalthoff, Chenru Duan, Yuchen Zhuang, Yue Yu, Yanqiao Zhu, Yuanqi Du, Alan Aspuru-Guzik, Kirill Neklyudov, Chao Zhang
개요
본 논문은 분자 발견을 최적화 문제로 공식화할 때 발생하는 비미분 가능한 목적 함수의 계산상 어려움을 해결하기 위해, 화학 지식을 갖춘 대규모 언어 모델(LLM)을 진화 알고리즘(EA)에 통합하는 방법을 제시합니다. 기존 EA의 랜덤 돌연변이와 교차 연산 대신, 화학 정보 대규모 데이터셋으로 훈련된 LLM을 이용하여 교차 및 돌연변이 연산을 재설계함으로써 목적 함수 평가 횟수를 줄이고 성능을 향상시킵니다. 다양한 상용 및 오픈소스 모델을 사용하여 성질 최적화, 분자 재발견, 구조 기반 약물 설계 등 여러 과제에 대한 실험을 수행한 결과, 단일 및 다중 목적 설정 모두에서 기존 모델보다 우수한 성능을 보임을 확인했습니다. 이는 최종 솔루션의 질과 수렴 속도 모두를 향상시킨다는 것을 의미합니다. 소스 코드는 깃허브에 공개되어 있습니다.
시사점, 한계점
•
시사점:
◦
화학 지식을 갖춘 LLM을 EA에 통합하여 분자 발견의 효율성을 크게 향상시킬 수 있음을 보여줍니다.
◦
최종 솔루션의 질과 수렴 속도를 동시에 개선하여 목표 달성에 필요한 계산 비용을 절감합니다.
◦
다양한 분자 발견 과제(성질 최적화, 분자 재발견, 구조 기반 약물 설계)에서 우수한 성능을 입증합니다.
◦
오픈소스 코드 공개를 통해 재현성과 확장성을 확보합니다.
•
한계점:
◦
사용된 LLM의 성능에 의존적일 수 있습니다. 다른 LLM을 사용할 경우 성능 차이가 발생할 수 있습니다.