Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Preference-Based Alignment of Discrete Diffusion Models

Created by
  • Haebom

저자

Umberto Borso, Davide Paglieri, Jude Wells, Tim Rocktaschel

개요

본 논문은 이산 확산 모델을 선호도 데이터를 사용하여 미세 조정하는 새로운 방법인 이산 확산 DPO(D2-DPO)를 제안합니다. D2-DPO는 연속 시간 마르코프 체인으로 공식화된 이산 확산 모델에 직접 선호도 최적화(DPO)를 처음으로 적용한 방법입니다. 명시적인 보상 함수 없이도 선호도에 맞춰 모델 출력을 효과적으로 정렬하면서 기준 분포에 대한 충실도를 유지하는 새로운 손실 함수를 도출합니다. 구조화된 이진 시퀀스 생성 작업에서 D2-DPO의 유효성을 검증하여 선호도에 맞춰 모델 출력을 효과적으로 정렬하면서 구조적 유효성을 유지함을 보여줍니다. 강화 학습 기반 접근 방식에 대한 실용적인 대안을 제공합니다. 향후 연구는 언어 모델링 및 단백질 시퀀스 생성을 포함한 보다 복잡한 생성 작업으로 D2-DPO를 확장하고, 다양한 응용 프로그램에서 유연성을 높이기 위해 균일 노이징과 같은 대체 노이즈 일정을 조사할 계획입니다.

시사점, 한계점

시사점:
명시적인 보상 함수 없이 이산 확산 모델을 선호도에 맞춰 미세 조정하는 새로운 방법 제시.
강화 학습 기반 접근 방식에 비해 실용적인 대안 제공.
구조화된 이진 시퀀스 생성 작업에서 효과적인 성능 입증.
한계점:
현재는 구조화된 이진 시퀀스 생성 작업에만 적용. 언어 모델링, 단백질 시퀀스 생성 등 더 복잡한 작업으로의 확장 필요.
다양한 응용 프로그램에 대한 유연성을 높이기 위해 다른 노이즈 일정(예: 균일 노이징)에 대한 추가 연구 필요.
👍