Property Enhanced Instruction Tuning for Multi-task Molecule Generation with Large Language Models
Created by
Haebom
Category
Empty
저자
Xuan Lin, Long Chen, Yile Wang, Xiangxiang Zeng, Philip S. Yu
개요
본 논문에서는 다중 속성 제약 조건이 포함된 분자 생성 작업에서의 성능 향상을 위해 두 단계 프레임워크인 PEIT(Property Enhanced Instruction Tuning)를 제시합니다. 첫 번째 단계에서는 텍스트 설명, SMILES 및 생화학적 속성을 다중 모드 입력으로 사용하여 다중 모드 표현을 정렬하여 instruction 데이터를 합성하는 PEIT-GEN 모델을 사전 훈련합니다. 두 번째 단계에서는 합성된 데이터를 사용하여 기존 오픈소스 LLM을 미세 조정하여 PEIT-LLM을 생성합니다. PEIT-LLM은 분자 캡션 생성, 텍스트 기반 분자 생성, 분자 속성 예측 및 새롭게 제안된 다중 제약 조건 분자 생성 작업을 처리할 수 있습니다. 실험 결과, PEIT-GEN은 분자 캡션 생성에서 MolT5 및 BioT5를 능가하며, PEIT-LLM은 다중 작업 분자 생성에서 유망한 성능 향상을 보여줍니다. 코드, 생성된 instruction 데이터 및 모델 체크포인트는 https://github.com/chenlong164/PEIT 에서 공개됩니다.