TMPO: Trajectory Matching Policy Optimization for Diverse and Efficient Diffusion Alignment

작성자

Haebom

카테고리

Empty

저자

Jiaming Li, Chenyu Zhu, Nanxi Yi, Youjun Bao, Li Sun, Quanying Lv, Xiang Fang, Daizong Liu, Jianjun Li, Kun He, Bowen Zhou, Zhiyuan Ma

💡 개요

본 논문은 강화학습 기반 확산 모델 정렬에서 발생하는 보상 해킹 문제를 해결하기 위해 제안된 TMPO (Trajectory Matching Policy Optimization) 방법을 소개합니다. TMPO는 스칼라 보상 극대화 대신 궤적 수준의 보상 분포를 일치시키는 새로운 접근 방식을 도입하여, 생성 다양성 저하와 모드 붕괴 현상을 완화합니다. 다양한 정렬 작업에서 TMPO는 생성 다양성을 9.1% 향상시키고, 보상과 다양성 간의 최적의 균형을 달성했습니다.

🔑 시사점 및 한계

•

궤적 수준의 보상 분포 매칭을 통해 확산 모델 정렬의 다양성과 효율성을 크게 개선할 수 있습니다.

•

TMPO는 보상 해킹 문제를 근본적으로 해결하여 생성물의 품질과 신뢰도를 높입니다.

•

대규모 모델 학습 시 동적 확률 트리 샘플링 기법을 활용하여 계산 효율성을 높일 수 있습니다.

•

본 연구의 한계점은 다양한 조건에서의 복잡한 텍스트 렌더링 작업에 대한 추가적인 검증이 필요할 수 있습니다.

PDF 보기

Made with Slashpage