본 논문은 단일 단계 텍스트-이미지 생성 모델을 인간의 선호도에 맞추는 문제를 최초로 연구합니다. 인간 피드백 강화 학습(RLHF)의 성공에 영감을 받아, 기대 인간 보상 함수를 극대화하면서 생성기의 발산을 방지하기 위해 적분 쿨백-라이블러 발산 항을 추가하는 방식으로 문제를 공식화합니다. 기술적 과제를 극복하여, 단일 단계 텍스트-이미지 생성기를 위한 최초의 빠른 수렴 및 이미지 데이터가 필요 없는 인간 선호도 정렬 방법인 Diff-Instruct++ (DI++)를 제시합니다. 또한, 확산 증류에 CFG를 사용하는 것이 암묵적으로 DI++를 사용한 RLHF를 수행하는 것임을 보여주는 새로운 이론적 통찰력을 제시합니다. 실험을 통해 Stable Diffusion 1.5 및 PixelArt-α를 기준 확산 프로세스로 사용하는 UNet 기반 및 DiT 기반 단일 단계 생성기를 DI++를 사용하여 정렬합니다. 결과적으로 DiT 기반 단일 단계 텍스트-이미지 모델은 COCO 검증 프롬프트 데이터셋에서 6.19의 높은 미적 점수와 1.24의 이미지 보상을 달성하며, Stable Diffusion XL, DMD2, SD-Turbo, PixelArt-α 등 다른 오픈소스 모델들을 능가하는 28.48의 선도적인 인간 선호도 점수(HPSv2.0)를 달성합니다. 이론적 기여와 실험적 증거 모두 DI++가 단일 단계 텍스트-이미지 모델을 위한 강력한 인간 선호도 정렬 방법임을 나타냅니다.