본 연구는 보상 기반의 이산 확산 모델(DDM) 최적화의 어려움을 해결하기 위해 MaskGRPO를 소개합니다. MaskGRPO는 효과적인 중요도 샘플링과 모드별 적응을 통해 확장 가능한 멀티모달 강화 학습을 가능하게 하는 최초의 실용적인 접근 방식입니다. DDM의 이론적 기반을 명확히 하고, 그래디언트 업데이트를 위해 가치 있는 토큰 변동을 포착하는 중요도 추정기를 구축했습니다. 또한, 시각적 시퀀스를 위해 롤아웃 방법을 정교하게 조정하여 다양한 완성본과 신뢰할 수 있는 최적화 그래디언트를 얻었습니다. 수리 추론, 코딩 및 시각적 생성 벤치마크에서 MaskGRPO는 보다 안정적이고 효율적인 업데이트를 제공하여 더 강력한 추론 성능과 더 나은 생성 품질을 보여줍니다.