Dynamic-TreeRPO: Breaking the Independent Trajectory Bottleneck with Structured Sampling

작성자

Haebom

카테고리

Empty

저자

Xiaolong Fu, Lichen Ma, Zipeng Guo, ShiPing Dong, Lan Yang, Tan Lit Sin, Gaojing Zhou, Yu He, Jingling Fu, Shizhe Zhou, Junshi Huang, Jason Li

💡 개요

본 논문은 텍스트-이미지 생성에서 강화학습(RL) 기반의 흐름 매칭 모델이 겪는 탐색 효율성 문제를 해결하기 위해 'Dynamic-TreeRPO'를 제안한다. 이 방법론은 슬라이딩 윈도우 샘플링을 트리 구조 검색으로 확장하고, 각 깊이에 따라 동적으로 노이즈 강도를 조절하는 방식을 사용한다. 이를 통해 계산 오버헤드를 줄이면서도 탐색 다양성을 높이고, SFT와 RL을 통합한 'LayerTuning-RL'을 통해 학습 효율성을 개선하여 생성 품질과 사람 선호도 일치도를 향상시켰다.

🔑 시사점 및 한계

•

텍스트-이미지 생성에서 RL의 탐색 병목 현상을 트리 구조 샘플링과 동적 노이즈 조절을 통해 효과적으로 해결할 수 있음을 보여준다.

•

SFT와 RL 패러다임을 동적으로 통합하는 LayerTuning-RL 접근 방식은 기존의 별도 사전 학습 방법 대비 효율성과 성능을 향상시킨다.

•

제안된 방법은 기존 최신 모델 대비 생성 품질, 의미론적 일관성, 사람 선호도 일치도에서 상당한 성능 향상을 보였으며, 학습 효율성 또한 크게 개선되었다.

•

트리 구조 검색 및 동적 노이즈 강도 설계에 대한 추가적인 최적화와 일반적인 흐름 매칭 모델에 대한 적용 가능성 탐색이 향후 과제가 될 수 있다.

PDF 보기

Made with Slashpage