Group Relative Policy Optimization (GRPO)는 post-training visual generative models에 효과적인 경량 프레임워크로 부상했지만, 텍스트-시각적 상호 관계의 모호성으로 인해 성능에 한계가 있다. 단일 프롬프트는 다양한 시각적 출력을 정당하게 설명할 수 있고, 단일 이미지 또는 비디오는 여러 가지 동등하게 정확한 해석을 지원할 수 있다. 이러한 다대다 관계는 보상 모델이 불확실하고 차별성이 약한 신호를 생성하도록 하여 GRPO가 신뢰할 수 있는 피드백을 제대로 활용하지 못하고 노이즈에 과적합되게 한다. 본 논문에서는 의미론적 사전 앵커를 통해 보상 불확실성을 명시적으로 모델링하는 GRPO의 새로운 확장인 Bayesian Prior-Guided Optimization (BPGO)을 소개한다. BPGO는 두 가지 수준에서 최적화 신뢰를 적응적으로 조절한다: 그룹 간 Bayesian 신뢰 할당은 사전과 일치하는 그룹의 업데이트를 강조하고 모호한 그룹의 업데이트는 가중치를 낮추며, 그룹 내 사전 앵커 재정규화는 확신 있는 편차를 확장하고 불확실한 점수를 압축하여 샘플 구별을 개선한다. 이미지 및 비디오 생성 작업에서 BPGO는 표준 GRPO 및 최근 변형에 비해 일관적으로 더 강력한 의미론적 정렬, 향상된 지각 충실도, 더 빠른 수렴을 제공한다.