본 논문은 이산 시퀀스(자연어, 생물학적 시퀀스 등)에서 강력한 실험적 성능을 보이는 확산 모델을 기반으로, 특정 작업 목표(예: 단백질 안정성)를 최적화하는 문제를 다룹니다. 기존의 사전 훈련된 확산 모델과 시퀀스를 작업 목표에 매핑하는 보상 모델을 활용하여, 보상을 극대화하면서 동시에 사전 훈련된 확산 모델과의 KL divergence를 최소화하여 자연스러운 시퀀스를 생성하는 문제를 강화학습(RL)과 유사하게 정식화합니다. 이를 위해 Gumbel-Softmax trick을 이용하여 확산 모델이 생성한 비미분 가능한 시퀀스를 미분 가능하게 만들고, 보상을 전체 시퀀스에 직접 역전파하는 새로운 알고리즘 DRAKES를 제안합니다. 이론적 분석을 통해 DRAKES가 자연스러우면서 보상이 높은 시퀀스를 생성할 수 있음을 보이고, DNA 및 단백질 시퀀스 생성 실험을 통해 유전자 치료 및 단백질 기반 치료제 개발에 중요한 인핸서 활성 및 단백질 안정성 최적화에 DRAKES의 효과를 입증합니다. 연속 영역 확산 모델과 달리, 이산 확산 모델의 연속 시간 마르코프 체인 기반 특성에 따른 고유한 알고리즘 및 이론적 과제를 해결합니다.
시사점, 한계점
•
시사점:
◦
이산 확산 모델에서 특정 작업 목표를 최적화하는 새로운 알고리즘 DRAKES 제안.
◦
Gumbel-Softmax trick을 이용한 비미분 가능한 시퀀스의 미분 가능화를 통한 효율적인 보상 역전파 구현.
◦
DNA 및 단백질 시퀀스 생성을 통한 실제 응용 가능성 검증 (유전자 치료, 단백질 기반 치료제 개발).