Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models

Created by
  • Haebom

저자

Yuming Li, Yikai Wang, Yuying Zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang

BranchGRPO: Efficient Human Preference Alignment for Image and Video Generation

개요

Group Relative Policy Optimization (GRPO)를 활용한 이미지 및 비디오 생성 모델의 인간 선호도 정렬 발전에도 불구하고, 기존 방식은 순차적 롤아웃, 과도한 샘플링 단계, 희소한 터미널 보상으로 인한 비효율성을 보였다. 본 논문에서는 롤아웃 과정을 분기 트리로 재구성하여 계산을 분산시키고 낮은 가치 경로나 중복된 깊이를 제거하는 BranchGRPO를 제안한다. BranchGRPO는 공유 접두사를 통해 롤아웃 비용을 분산시키는 분기 방식, 희소한 터미널 보상을 밀집된 스텝 레벨 신호로 변환하는 보상 융합 및 깊이별 어드밴티지 추정기, 그리고 기울기 계산을 줄이는 가지치기 전략을 도입한다. HPDv2.1 이미지 정렬에서 BranchGRPO는 DanceGRPO 대비 정렬 점수를 최대 16% 향상시키면서 반복당 학습 시간을 약 55% 감소시켰다. 하이브리드 변형인 BranchGRPO-Mix는 정렬 성능 저하 없이 DanceGRPO보다 4.7배 빠른 학습 속도를 보였다. WanX 비디오 생성에서 BranchGRPO는 DanceGRPO보다 더 높은 Video-Align 점수와 선명하고 시간적으로 일관된 프레임을 달성했다.

시사점, 한계점

시사점:
이미지 및 비디오 생성 모델의 인간 선호도 정렬 성능 향상.
학습 시간 단축을 통한 효율성 개선.
분기 트리 구조를 활용한 롤아웃 과정의 최적화.
보상 융합 및 어드밴티지 추정기를 통한 정확한 신호 전달.
한계점:
구체적인 한계점은 논문에서 명시적으로 언급되지 않음 (예: 특정 데이터셋에서의 성능 저하, 복잡한 구현 등).
추후 연구를 통해 밝혀질 가능성 존재.
👍