Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Where and How to Perturb: On the Design of Perturbation Guidance in Diffusion and Flow Models

Created by
  • Haebom

저자

Donghoon Ahn, Jiwon Kang, Sanghyun Lee, Minjae Kim, Jaewon Min, Wooseok Jang, Sangwu Lee, Sayak Paul, Susung Hong, Seungryong Kim

개요

본 논문은 확산 모델의 생성 품질을 제어하기 위한 새로운 방법인 "HeadHunter"를 제안한다. 특히, 어텐션 메커니즘에 주목하여, 개별 어텐션 헤드가 구조, 스타일, 텍스처와 같은 시각적 속성을 제어하는 데 특화되어 있음을 밝힌다. HeadHunter는 사용자 중심의 목표에 따라 특정 어텐션 헤드를 반복적으로 선택하고, SoftPAG를 통해 선택된 헤드의 어텐션 맵을 선형적으로 보간하여 생성 품질과 시각적 속성을 세밀하게 제어한다. Stable Diffusion 3 및 FLUX.1과 같은 대규모 DiT 기반 텍스트-이미지 모델에서 실험을 통해, 기존 방법보다 우수한 성능을 입증한다.

시사점, 한계점

시사점:
확산 모델의 어텐션 레이어 내에서 헤드 수준의 특수성을 밝혀, 해석 가능한 제어 방식을 제시함.
HeadHunter 프레임워크를 통해 생성 품질과 스타일을 세밀하게 제어할 수 있는 새로운 접근 방식을 제시함.
SoftPAG를 사용하여 perturbation 강도를 조절하고 아티팩트를 줄이는 방법을 제시함.
Stable Diffusion 3 및 FLUX.1과 같은 최신 모델에서 성능 우위를 입증함.
한계점:
어텐션 헤드 선택 및 튜닝 과정에 대한 추가적인 연구가 필요할 수 있음.
HeadHunter 프레임워크의 일반화 가능성과 다른 유형의 모델에 대한 적용 가능성을 추가로 검증해야 함.
헤드 수준의 특수성이 모든 확산 모델 아키텍처에서 동일하게 적용될 수 있는지 확인해야 함.
👍