본 논문은 잠재 확산 모델에서 고품질 이미지 및 비디오 생성을 위해 잠재 표현을 사용하는 오토인코더의 고주파 성분이 확산 합성 과정에 부정적인 영향을 미친다는 것을 밝힙니다. 특히 병목 채널 크기가 큰 오토인코더에서 이러한 현상이 두드러집니다. 이 문제를 해결하기 위해, 디코더에서 스케일 등변성을 강제하는 간단한 정규화 전략인 스케일 등변성(scale equivariance)을 제안합니다. 이 방법은 최소한의 코드 변경과 2만 회 미만의 오토인코더 미세 조정 단계만으로 ImageNet-1K 256x256 이미지 생성에서 FID를 19% 감소시키고, Kinetics-700 17x256x256 비디오 생성에서 FVD를 최소 44% 감소시키는 등 생성 품질을 크게 향상시킵니다.
시사점, 한계점
•
시사점:
◦
오토인코더의 고주파 성분이 잠재 확산 모델의 생성 품질에 미치는 부정적 영향을 규명했습니다.
◦
스케일 등변성이라는 간단하고 효과적인 정규화 전략을 제시하여 잠재 확산 모델의 성능을 향상시켰습니다.
◦
이미지 및 비디오 생성에서 FID와 FVD 지표를 상당히 개선했습니다.
◦
최소한의 계산 비용으로 성능 향상을 달성했습니다.
•
한계점:
◦
제안된 방법의 효과는 특정 데이터셋(ImageNet-1K, Kinetics-700)과 모델에 국한될 수 있습니다.
◦
다른 종류의 오토인코더나 잠재 확산 모델에 대한 일반화 가능성에 대한 추가 연구가 필요합니다.