확산 모델은 순방향 잡음 과정을 역전시켜 실제 데이터 분포를 근사함으로써 뛰어난 이미지 생성 성능을 달성했습니다. 훈련 중에는 이러한 모델이 단일 순방향 패스에서 잡음이 추가된 실제 샘플로부터 확산 점수를 예측하지만, 추론은 백색 잡음으로부터 시작하는 반복적인 잡음 제거를 필요로 합니다. 이러한 훈련-추론의 차이는 잠재적인 예측 편향과 누적 오류 축적으로 인해 추론과 훈련 데이터 분포 간의 정렬을 방해합니다. 본 논문에서는 이 문제를 해결하기 위해, 최적화 중 추론 과정을 자극하고 적대적 감독을 통해 최종 출력을 훈련 데이터와 정렬하는 직관적이면서 효과적인 미세 조정 프레임워크인 적대적 확산 조정(ADT)을 제안합니다. 특히, 강력한 적대적 훈련을 달성하기 위해 ADT는 고정된 사전 훈련된 백본과 경량 학습 가능한 매개변수를 갖는 Siamese 네트워크 판별기를 특징으로 하며, 판별 어려움을 완화하기 위해 이미지-이미지 샘플링 전략을 통합하고, 판별자 해킹을 방지하기 위해 원래 확산 손실을 유지합니다. 또한, 메모리 과부하나 기울기 폭발 없이 추론 경로를 따라 기울기를 역전파하기 위한 후방 전달 경로를 신중하게 제한합니다. 마지막으로, Stable Diffusion 모델(v1.5, XL, v3)에 대한 광범위한 실험을 통해 ADT가 분포 정렬과 이미지 품질을 모두 크게 향상시킨다는 것을 보여줍니다.