Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Toward the Frontiers of Reliable Diffusion Sampling via Adversarial Sinkhorn Attention Guidance

Created by
  • Haebom
Category
Empty

저자

Kwanyoung Kim

개요

확산 모델은 classifier-free guidance (CFG)와 같은 guidance 방법을 사용하여 생성 성능을 향상시켰다. ASAG (Adversarial Sinkhorn Attention Guidance)는 최적 수송의 관점에서 확산 모델의 attention score를 재해석하고 Sinkhorn 알고리즘을 통해 수송 비용을 의도적으로 방해하는 새로운 방법이다. ASAG는 attention 메커니즘을 무작위로 손상시키는 대신, self-attention 레이어 내에 적대적 비용을 주입하여 query와 key 간의 픽셀 단위 유사성을 감소시킨다. 이를 통해 잘못된 attention 정렬을 약화시키고 조건부 및 무조건부 샘플 품질을 향상시킨다. ASAG는 텍스트-이미지 확산에서 일관된 개선을 보이며, IP-Adapter 및 ControlNet과 같은 다운스트림 애플리케이션에서 제어 가능성과 충실도를 향상시킨다. 이 방법은 가볍고 plug-and-play 방식이며, 모델 재훈련 없이 신뢰성을 향상시킨다.

시사점, 한계점

ASAG는 확산 모델에서 attention 메커니즘을 개선하기 위한 새로운 방법론을 제시한다.
최적 수송과 Sinkhorn 알고리즘을 활용하여 attention score를 조작한다.
텍스트-이미지 생성 및 다운스트림 애플리케이션에서 품질과 제어 가능성을 향상시킨다.
모델 재훈련 없이 적용 가능하다.
논문의 한계점은 명시적으로 제시되지 않음.
👍