Property Enhanced Instruction Tuning for Multi-task Molecule Generation with Large Language Models
Created by
Haebom
저자
Xuan Lin, Long Chen, Yile Wang, Xiangxiang Zeng, Philip S. Yu
개요
본 논문은 다양한 분자 관련 작업을 위해 대규모 언어 모델(LLM)을 향상시키는 두 단계 프레임워크인 PEIT(Property Enhanced Instruction Tuning)을 제시합니다. 첫 번째 단계에서는 텍스트 설명, SMILES 및 생화학적 특성을 다중 모드 입력으로 사용하여 다중 모드 표현을 정렬하여 지시 데이터를 합성하는 PEIT-GEN 모델을 사전 훈련합니다. 두 번째 단계에서는 합성된 데이터를 사용하여 기존의 오픈소스 LLM을 미세 조정하여 PEIT-LLM을 생성합니다. PEIT-LLM은 분자 캡션 생성, 텍스트 기반 분자 생성, 분자 특성 예측 및 새롭게 제안된 다중 제약 조건 분자 생성 작업을 처리할 수 있습니다. 실험 결과에 따르면 사전 훈련된 PEIT-GEN은 분자 캡션 생성에서 MolT5 및 BioT5보다 성능이 우수하며, 다중 작업 분자 생성에서도 PEIT-LLM이 유망한 향상을 보여줍니다. 코드, 생성된 지시 데이터 및 모델 검사점은 https://github.com/chenlong164/PEIT 에서 공개됩니다.