Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Improving the Diffusability of Autoencoders

Created by
  • Haebom
Category
Empty

저자

Ivan Skorokhodov, Sharath Girish, Benran Hu, Willi Menapace, Yanyu Li, Rameen Abdal, Sergey Tulyakov, Aliaksandr Siarohin

개요

본 논문은 잠재 확산 모델에서 고품질 이미지 및 비디오 생성을 위해 잠재 표현을 사용하는 오토인코더의 고주파 성분이 확산 합성 과정에 부정적인 영향을 미친다는 것을 밝힙니다. 특히 병목 채널 크기가 큰 오토인코더에서 이러한 현상이 두드러집니다. 이 문제를 해결하기 위해, 디코더에서 스케일 등변성을 강제하는 간단한 정규화 전략인 스케일 등변성(scale equivariance)을 제안합니다. 이 방법은 최소한의 코드 변경과 2만 회 미만의 오토인코더 미세 조정 단계만으로 ImageNet-1K 256x256 이미지 생성에서 FID를 19% 감소시키고, Kinetics-700 17x256x256 비디오 생성에서 FVD를 최소 44% 감소시키는 등 생성 품질을 크게 향상시킵니다.

시사점, 한계점

시사점:
오토인코더의 고주파 성분이 잠재 확산 모델의 생성 품질에 미치는 부정적 영향을 규명했습니다.
스케일 등변성이라는 간단하고 효과적인 정규화 전략을 제시하여 잠재 확산 모델의 성능을 향상시켰습니다.
이미지 및 비디오 생성에서 FID와 FVD 지표를 상당히 개선했습니다.
최소한의 계산 비용으로 성능 향상을 달성했습니다.
한계점:
제안된 방법의 효과는 특정 데이터셋(ImageNet-1K, Kinetics-700)과 모델에 국한될 수 있습니다.
다른 종류의 오토인코더나 잠재 확산 모델에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.
스케일 등변성 이외의 다른 요인들이 생성 품질에 영향을 미칠 수 있습니다.
👍