Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models

작성자

Haebom

카테고리

Empty

저자

Jeongjae Lee, Jinho Chang, Jeongsol Kim, Jong Chul Ye

💡 개요

본 논문은 사전 학습된 확산 모델 및 흐름 기반 생성 모델을 더 높은 보상 값을 가진 샘플을 생성하도록 조정하는 보상 기반 파인튜닝 방법들을 '보상 점수 매칭(Reward Score Matching, RSM)'이라는 통합된 프레임워크로 재해석합니다. RSM 관점에서 샘플 정렬은 값 함수 안내 타겟에 대한 점수 매칭으로 간주되며, 기존 방법들의 차이는 값 안내 추정기의 구성과 타임스텝 전반의 최적화 강도에 있다는 것을 보입니다. 이를 통해 본 연구는 기존 설계의 편향-분산-계산 트레이드오프를 명확히 하고, 단순하고 효율적인 재설계를 제시합니다.

🔑 시사점 및 한계

•

보상 기반 파인튜닝 방법들을 '보상 점수 매칭'이라는 단일 프레임워크로 통합하여 기존 방법들의 이해를 높이고 디자인 공간을 축소합니다.

•

RSM 프레임워크는 값 안내 추정기 설계와 최적화 강도 조절이라는 핵심 요소에 집중함으로써, 불필요한 복잡성을 줄이고 효율적인 모델 재설계를 가능하게 합니다.

•

본 연구에서 제시된 단순화된 재설계의 일반화 성능 및 다양한 복잡한 보상 함수에 대한 효과는 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage