Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance

Created by
  • Haebom

저자

Luozhijie Jin, Zijie Qiu, Jie Liu, Zijie Diao, Lifeng Qiao, Ning Ding, Alex Lamb, Xipeng Qiu

개요

본 논문은 잡음 제거 기반 생성 모델, 특히 확산 및 흐름 일치 알고리즘의 성과를 바탕으로, 생성 모델의 출력 분포를 인간의 선호도, 구성 정확도, 데이터 압축률과 같은 복잡한 하위 목표에 맞추는 어려움을 해결하고자 한다. 기존 강화 학습(RL) 미세 조정 방법의 한계를 극복하기 위해, 확산 모델에 대한 RL 미세 조정을 확률 미분 방정식과 암시적 보상 조건화의 관점에서 재해석한다. 본 논문은 기본 모델과 RL 미세 조정 모델의 출력을 기하 평균을 통해 결합하여 분류기 없는 안내(CFG)를 적용하는 추론 시간 방법인 강화 학습 안내(RLG)를 제시한다. 이론적 분석을 통해 RLG의 안내 척도가 표준 RL 목표에서 KL-정규화 계수를 조정하는 것과 수학적으로 동일하며, 추가 훈련 없이 정렬-품질 절충에 대한 동적 제어를 가능하게 함을 보여준다. 다양한 아키텍처, RL 알고리즘 및 하위 작업(인간 선호도, 구성 제어, 압축률, 텍스트 렌더링 포함)에 걸쳐 RLG가 RL 미세 조정 모델의 성능을 지속적으로 향상시킨다는 것을 광범위한 실험을 통해 입증한다. 또한 RLG는 보간 및 외삽을 모두 지원하여 생성 정렬 제어에 있어 전례 없는 유연성을 제공한다. 결론적으로, 본 논문은 추론 시 확산 모델 정렬을 향상시키고 제어하기 위한 실용적이고 이론적으로 타당한 해결책을 제공한다.

시사점, 한계점

시사점:
확산 모델의 RL 미세 조정을 위한 새로운 방법인 RLG 제시.
RLG는 추론 시간에 기하 평균을 사용하여 기본 모델과 RL 미세 조정 모델의 출력을 결합하여, 추가적인 훈련 없이 정렬 강도를 동적으로 제어 가능하게 함.
인간 선호도, 구성 제어, 압축률, 텍스트 렌더링 등 다양한 하위 작업에서 RL 미세 조정 모델의 성능을 향상시킴.
보간 및 외삽을 지원하여 생성 정렬 제어의 유연성 향상.
이론적 분석을 통해 RLG의 효과를 수학적으로 증명.
소스 코드 공개.
한계점:
본 논문에서 제시된 RLG의 성능은 특정 데이터셋과 작업에 대한 실험 결과에 기반하며, 다른 데이터셋이나 작업에 대한 일반화 성능은 추가 연구가 필요함.
RLG의 계산 비용은 기존 방법보다 높을 수 있음.
RLG의 안내 척도 조정에 대한 최적의 전략은 추가 연구를 통해 더욱 개선될 수 있음.
👍