Group Relative Policy Optimization (GRPO)를 활용한 이미지 및 비디오 생성 모델의 인간 선호도 정렬 발전에도 불구하고, 기존 방식은 순차적 롤아웃, 과도한 샘플링 단계, 희소한 터미널 보상으로 인한 비효율성을 보였다. 본 논문에서는 롤아웃 과정을 분기 트리로 재구성하여 계산을 분산시키고 낮은 가치 경로나 중복된 깊이를 제거하는 BranchGRPO를 제안한다. BranchGRPO는 공유 접두사를 통해 롤아웃 비용을 분산시키는 분기 방식, 희소한 터미널 보상을 밀집된 스텝 레벨 신호로 변환하는 보상 융합 및 깊이별 어드밴티지 추정기, 그리고 기울기 계산을 줄이는 가지치기 전략을 도입한다. HPDv2.1 이미지 정렬에서 BranchGRPO는 DanceGRPO 대비 정렬 점수를 최대 16% 향상시키면서 반복당 학습 시간을 약 55% 감소시켰다. 하이브리드 변형인 BranchGRPO-Mix는 정렬 성능 저하 없이 DanceGRPO보다 4.7배 빠른 학습 속도를 보였다. WanX 비디오 생성에서 BranchGRPO는 DanceGRPO보다 더 높은 Video-Align 점수와 선명하고 시간적으로 일관된 프레임을 달성했다.