Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models

Created by
  • Haebom

저자

Hongtao Huang, Xiaojun Chang, Lina Yao

개요

본 논문은 고품질 이미지 생성 능력에도 불구하고 반복적인 다단계 추론으로 인해 높은 계산 비용이 드는 확산 모델(Diffusion Models, DMs)의 문제점을 해결하기 위해, 사전 훈련된 매개변수를 수정하지 않고 생성 일정과 모델 아키텍처를 공동으로 최적화하는 훈련 없는 NAS 프레임워크인 Flexiffusion을 제안합니다. Flexiffusion은 생성 과정을 동일한 길이의 유연한 세그먼트로 분해하고, 각 세그먼트에서 전체 계산, 부분 계산(캐시 재사용), 계산 건너뛰기의 세 가지 단계 유형을 동적으로 결합하여 단계별 NAS에 비해 후보군을 기하급수적으로 줄이면서 아키텍처 다양성을 유지합니다. 또한, 기준 데이터 대신 교사 모델의 출력과의 차이를 측정하는 경량 평가 지표인 rFID를 도입하여 평가 시간을 90% 이상 단축합니다. 실험 결과, Flexiffusion은 ImageNet과 MS-COCO에서 LDMs, Stable Diffusion, DDPMs에 대해 최소 2배의 가속화를 달성하면서 FID 저하를 5% 미만으로 유지했으며, 기존 NAS 및 캐싱 방법보다 우수한 성능을 보였습니다. 특히 Stable Diffusion에서는 CLIP 점수가 거의 동일하면서 5.1배의 속도 향상을 달성했습니다.

시사점, 한계점

시사점:
사전 훈련된 매개변수 수정 없이 확산 모델의 속도를 크게 향상시키는 효율적인 NAS 프레임워크 제시
생성 과정의 유연한 세그먼트 분해 및 다양한 단계 유형 조합을 통한 계산 비용 감소 및 아키텍처 다양성 유지
경량 평가 지표 rFID를 활용한 평가 시간 대폭 단축
ImageNet 및 MS-COCO 데이터셋에서 다양한 확산 모델에 대한 실질적인 속도 향상 및 성능 유지 확인 (최소 2배 속도 향상, FID 저하 5% 미만)
Stable Diffusion에서 5.1배의 속도 향상과 거의 동일한 CLIP 점수 달성
한계점:
Flexiffusion의 성능 향상은 특정 데이터셋과 모델에 국한될 수 있으며, 다른 데이터셋이나 모델에 적용 시 성능이 저하될 가능성 존재
rFID는 교사 모델의 성능에 의존적이므로, 교사 모델의 성능이 낮을 경우 rFID의 신뢰성이 떨어질 수 있음
세그먼트 길이 및 단계 유형 조합 등의 하이퍼파라미터 최적화가 필요하며, 최적의 하이퍼파라미터 설정이 모델 및 데이터셋에 따라 다를 수 있음
훈련 없는 방식이지만, rFID 계산을 위한 교사 모델은 사전에 훈련되어야 함. 따라서 완전히 훈련이 필요 없는 것은 아님.
👍