Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reward-Directed Score-Based Diffusion Models via q-Learning

Created by
  • Haebom

저자

Xuefeng Gao, Jiale Zha, Xun Yu Zhou

개요

본 논문은 생성 AI를 위한 연속 시간 점수 기반 확산 모델을 훈련시키는 새로운 강화 학습(RL) 공식을 제안합니다. 이 공식은 생성된 분포를 알려지지 않은 목표 데이터 분포에 가깝게 유지하면서 보상 함수를 극대화하는 샘플을 생성합니다. 기존 연구와 달리, 알려지지 않은 잡음이 추가된 데이터 분포의 점수 함수에 대한 사전 훈련된 모델을 사용하거나 점수 함수를 학습하려고 시도하지 않습니다. 대신, 엔트로피로 규제된 연속 시간 RL로 문제를 공식화하고, 최적의 확률적 정책이 알려진 공분산 행렬을 갖는 가우시안 분포를 갖는다는 것을 보여줍니다. 이 결과를 바탕으로 가우시안 정책의 평균을 매개변수화하고 RL 문제를 해결하기 위해 actor-critic 유형의 (작은) q-학습 알고리즘을 개발합니다. 알고리즘 설계의 핵심 요소는 비율 추정기를 통해 알려지지 않은 점수 함수에서 잡음이 있는 관측값을 얻는 것입니다. 본 공식은 순수 점수 매칭과 사전 훈련된 모델의 미세 조정을 해결하는 데에도 적용할 수 있습니다. 수치적으로, 고차원 이미지 생성을 포함한 여러 생성 작업에서 사전 훈련된 모델을 미세 조정하는 두 가지 최첨단 RL 방법과 성능을 비교하여 본 접근 방식의 효과를 보여줍니다. 마지막으로, 확산 모델의 확률 흐름 ODE 구현과 조건부 확산 모델에 대한 RL 공식의 확장에 대해 논의합니다.

시사점, 한계점

시사점:
사전 훈련된 모델 없이 연속 시간 점수 기반 확산 모델을 훈련시키는 새로운 RL 공식 제시.
최적 정책의 가우시안 분포 특성을 이용한 효율적인 알고리즘 개발.
비율 추정기를 활용한 잡음 관측값 획득을 통한 효과적인 학습.
순수 점수 매칭 및 사전 훈련 모델 미세 조정에도 적용 가능.
고차원 이미지 생성 등 다양한 생성 작업에서 기존 방법 대비 우수한 성능 입증.
확률 흐름 ODE 및 조건부 확산 모델로의 확장 가능성 제시.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 실험 및 분석 필요.
고차원 데이터에 대한 확장성 및 계산 비용에 대한 추가적인 연구 필요.
비율 추정기의 정확도에 따라 성능이 영향을 받을 수 있음.
알려지지 않은 점수 함수에 대한 정보가 전혀 없는 상황에서의 성능 한계.
👍