본 논문은 데이터 효율적인 사후 훈련 방식인 Diff-Instruct*(DI*)를 제안합니다. DI는 이미지 데이터 없이도 인간의 선호도를 개선하여 단일 단계 텍스트-이미지 생성 모델을 향상시킵니다. 인간 피드백으로부터의 온라인 강화 학습(RLHF)으로 정렬 문제를 설정하여, 참조 확산 과정에 가깝게 유지하도록 규제하면서 인간 보상 함수를 극대화하도록 단일 단계 모델을 최적화합니다. 기존 RLHF 접근 방식과 달리 Kullback-Leibler 발산을 규제에 사용하는 대신, 성능과 사후 훈련 안정성을 크게 향상시키는 새로운 일반적인 점수 기반 발산 규제를 도입합니다. 일반적인 점수 기반 RLHF 목적 함수는 최적화하기 어렵지만, 이론적으로 최적화를 위한 기울기를 효율적으로 계산할 수 있는 엄밀하게 동등한 취급 가능한 손실 함수를 도출합니다. 본 논문에서는 SDXL을 기준으로 DMD2에서 사후 훈련된 2.6B 단일 단계 텍스트-이미지 모델인 DI-SDXL-1step (1024x1024 해상도)을 소개합니다. DI*-SDXL-1step 모델은 Parti 프롬프트 벤치마크에서 ImageReward, PickScore, CLIP 점수 측면에서 50단계 12B FLUX-dev 모델을 능가하며, 추론 시간은 1.88%만 사용합니다. 이는 적절한 사후 훈련을 통해 소규모 단일 단계 모델이 대규모 다단계 확산 모델을 능가할 수 있음을 보여줍니다. 모델은 공개적으로 제공됩니다.