Sketch Then Paint: Hierarchical Reinforcement Learning for Diffusion Multi-Modal Large Language Models

작성자

Haebom

카테고리

Empty

저자

Siqi Luo, Jianghan Shen, Yi Xin, Huayu Zheng, Haoxing Chen, Yan Tai, Yue Li, Junjun He, Yihao Liu, Guangtao Zhai, Yuewen Cao, Xiaohong Liu

💡 개요

이 논문은 확산 다중 모달 대규모 언어 모델(dMLLMs)의 강화 학습 최적화 문제를 해결하기 위한 새로운 접근법인 계층적 토큰 GRPO(HT-GRPO)를 제안합니다. HT-GRPO는 이미지 생성 과정의 계층적 구조를 활용하여, 글로벌 레이아웃을 결정하는 초기 토큰과 로컬 디테일을 담당하는 후기 토큰에 차등적인 보상을 부여합니다. 제안된 "Sketch-Then-Paint" 훈련 방안은 글로벌, 구조, 정제 단계를 통해 정책 최적화를 체계화하며, 실험 결과 GenEval 및 DPG 벤치마크에서 상당한 성능 향상을 입증했습니다.

🔑 시사점 및 한계

•

dMLLMs의 이미지 생성 과정에 내재된 계층적 구조를 강화 학습 정책 최적화에 효과적으로 통합할 수 있습니다.

•

"Sketch-Then-Paint" 훈련 방안과 계층적 신용 할당 메커니즘은 이미지 품질, 심미성, 사용자 선호도 전반에 걸쳐 상당한 개선을 가져옵니다.

•

프롬프트 조건부 추정기를 통한 중요도 비율 계산이 모든 토큰에 대해 균일한 보상을 할당하는 기존 방식의 한계를 극복합니다.

•

제안된 방법론의 일반화 가능성 및 다른 유형의 생성 모델에 대한 적용성은 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage