Nikolas Adaloglou, Tim Kaiser, Damir Iagudin, Markus Kollmann
개요
본 논문은 확산 모델의 샘플 품질 향상을 위한 가이드(Guidance) 기법을 다룬다. 2차원 예시를 통해 보조 모델의 일반화 오류가 주 모델과 유사하지만 더 강할 때 가이드가 매우 유익함을 보여준다. 이러한 통찰력을 바탕으로, 훈련이 필요 없는 새로운 방법인 마스크 슬라이딩 윈도우 가이드(Masked Sliding Window Guidance, M-SWG)를 제안한다. M-SWG는 수용 영역을 선택적으로 제한하여 주 모델 자체를 가이드함으로써 장거리 공간 의존성을 높인다. 기존 반복에서의 모델 가중치 접근, 추가 훈련 또는 클래스 조건화가 필요 없다. 기존 최첨단 훈련 없는 접근 방식보다 우수한 Inception Score (IS)를 달성하며, 샘플 과포화를 유발하지 않는다. 기존 가이드 방법과 함께 사용하면 EDM2-XXL 및 DiT-XL을 사용하여 ImageNet에서 최첨단 Frechet DINOv2 거리를 달성한다. 코드는 https://github.com/HHU-MMBS/swg_bmvc2025_official 에서 이용 가능하다.
시사점, 한계점
•
시사점:
◦
훈련이 필요 없는 새로운 가이드 기법인 M-SWG 제안.
◦
기존 최첨단 훈련 없는 방법보다 우수한 Inception Score 달성.
◦
샘플 과포화 없이 성능 향상.
◦
기존 가이드 방법과의 결합을 통해 ImageNet에서 최첨단 Frechet DINOv2 거리 달성.
◦
보조 모델의 일반화 오류 특성이 가이드 성능에 중요함을 제시.
•
한계점:
◦
2차원 예시를 사용하여 이론적 근거를 제시했으나, 고차원 데이터셋에 대한 일반화 가능성은 추가 연구 필요.