Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ADT: Tuning Diffusion Models with Adversarial Supervision

Created by
  • Haebom

저자

Dazhong Shen, Guanglu Song, Yi Zhang, Bingqi Ma, Lujundong Li, Dongzhi Jiang, Zhuofan Zong, Yu Liu

개요

확산 모델은 순방향 잡음 과정을 역전시켜 실제 데이터 분포를 근사함으로써 뛰어난 이미지 생성 성능을 달성했습니다. 훈련 중에는 이러한 모델이 단일 순방향 패스에서 잡음이 추가된 실제 샘플로부터 확산 점수를 예측하지만, 추론은 백색 잡음으로부터 시작하는 반복적인 잡음 제거를 필요로 합니다. 이러한 훈련-추론의 차이는 잠재적인 예측 편향과 누적 오류 축적으로 인해 추론과 훈련 데이터 분포 간의 정렬을 방해합니다. 본 논문에서는 이 문제를 해결하기 위해, 최적화 중 추론 과정을 자극하고 적대적 감독을 통해 최종 출력을 훈련 데이터와 정렬하는 직관적이면서 효과적인 미세 조정 프레임워크인 적대적 확산 조정(ADT)을 제안합니다. 특히, 강력한 적대적 훈련을 달성하기 위해 ADT는 고정된 사전 훈련된 백본과 경량 학습 가능한 매개변수를 갖는 Siamese 네트워크 판별기를 특징으로 하며, 판별 어려움을 완화하기 위해 이미지-이미지 샘플링 전략을 통합하고, 판별자 해킹을 방지하기 위해 원래 확산 손실을 유지합니다. 또한, 메모리 과부하나 기울기 폭발 없이 추론 경로를 따라 기울기를 역전파하기 위한 후방 전달 경로를 신중하게 제한합니다. 마지막으로, Stable Diffusion 모델(v1.5, XL, v3)에 대한 광범위한 실험을 통해 ADT가 분포 정렬과 이미지 품질을 모두 크게 향상시킨다는 것을 보여줍니다.

시사점, 한계점

시사점:
적대적 훈련을 통해 확산 모델의 훈련 및 추론 과정 간의 불일치 문제를 효과적으로 해결.
Siamese 네트워크와 이미지-이미지 샘플링 전략을 활용하여 안정적이고 효율적인 적대적 훈련 가능.
Stable Diffusion 모델의 이미지 생성 품질 및 분포 정렬 개선에 효과적임을 실험적으로 검증.
메모리 과부하 및 기울기 폭발 문제를 해결하는 효율적인 역전파 전략 제시.
한계점:
제안된 방법의 효과는 특정 확산 모델(Stable Diffusion)에 대해서만 실험적으로 검증되었으므로, 다른 모델에 대한 일반화 성능은 추가 연구가 필요.
적대적 훈련의 특성상, 판별자 해킹을 완전히 방지할 수 없을 가능성 존재.
Siamese 네트워크의 설계 및 하이퍼파라미터 조정에 대한 자세한 설명 부족.
추론 속도에 대한 분석이 부족.
👍