Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Epsilon-VAE: Denoising as Visual Decoding

Created by
  • Haebom

저자

Long Zhao, Sanghyun Woo, Ziyu Wan, Yandong Li, Han Zhang, Boqing Gong, Hartwig Adam, Xuhui Jia, Ting Liu

개요

본 논문은 기존의 오토인코더 기반 시각적 토큰화 방법의 한계를 극복하기 위해, 디퓨전 프로세스를 이용한 새로운 접근 방식을 제시합니다. 기존의 단일 단계 재구성 대신, 노이즈를 반복적으로 정제하여 원본 이미지를 복원하는 디퓨전 프로세스를 디코더로 사용합니다. 이를 통해 인코더가 제공하는 잠재 표현(latent representation)을 이용하여 이미지를 효과적으로 재구성합니다. 제안된 방법은 Epsilon-VAE 라 명명되었으며, rFID와 FID 지표를 통해 기존 최첨단 오토인코더 방식과 비교하여 우수한 재구성 및 생성 품질을 달성함을 보여줍니다. 특히 동일한 압축률에서 생성 품질을 22% 향상시키거나, 압축률을 높여 2.3배의 추론 속도 향상을 달성합니다.

시사점, 한계점

시사점:
디퓨전 프로세스를 이용한 반복적인 재구성을 통해 오토인코더의 재구성 및 생성 품질을 향상시킬 수 있음을 보여줌.
동일한 압축률에서 생성 품질 향상 또는 높은 압축률을 통한 추론 속도 향상이 가능함.
시각적 토큰화에서 새로운 가능성을 제시.
한계점:
Epsilon-VAE의 성능 향상이 특정 데이터셋이나 모델 아키텍처에 국한될 가능성.
디퓨전 프로세스의 계산 비용이 높을 수 있음. (비록 논문에서는 속도 향상을 언급하지만, 절대적인 계산량의 증가 가능성 고려 필요)
더 광범위한 데이터셋과 다양한 비교 대상 모델에 대한 추가적인 실험이 필요.
👍