본 논문은 Direct Preference Optimization (DPO)를 텍스트-이미지(T2I) 확산 모델에 적용하는 과정에서 발생하는 두 가지 어려움, 즉 DPO의 선호도 쌍에 대한 민감성과 고품질 데이터 수집 및 주석 작업의 노동 집약성에 초점을 맞춥니다. DPO가 상대적 순위에만 의존하여 쌍의 절대적 차이를 무시함으로써 잘못된 분류를 초래할 수 있다는 점을 지적하고, 이를 해결하기 위해 쌍방향에서 그룹 단위로 DPO를 확장하고 보상 표준화를 통한 재가중치 부여를 제안합니다. 또한, 외부 데이터 없이 모델 자체의 능력을 활용하여 성능을 향상시키는 Group Preference Optimization (GPO)라는 자기 개선 방법을 제시합니다. 실험 결과, GPO는 다양한 확산 모델과 작업에서 효과적이며, YOLO 및 OCR과 같은 컴퓨터 비전 모델과 결합하여 Stable Diffusion 3.5 Medium의 정확한 계산 및 텍스트 렌더링 기능을 20% 향상시키는 것으로 나타났습니다. 추론 과정에서 추가적인 오버헤드 없이 적용 가능한 플러그 앤 플레이 방식입니다.