# Epsilon-VAE: Denoising as Visual Decoding

### 저자

Long Zhao, Sanghyun Woo, Ziyu Wan, Yandong Li, Han Zhang, Boqing Gong, Hartwig Adam, Xuhui Jia, Ting Liu

### 개요

본 논문은 기존의 오토인코더 기반 시각적 토큰화 방법의 한계를 극복하기 위해, 디퓨전 프로세스를 이용한 새로운 접근법을 제시합니다. 기존의 단일 단계 재구성 대신, 노이즈를 반복적으로 개선하여 원본 이미지를 복구하는 디퓨전 프로세스를 디코더로 사용합니다. 이를 통해 인코더가 제공하는 잠재 표현(latent representations)을 가이드로 하여 이미지를 생성합니다.  제안된 방법은 $\epsilon$-VAE라 명명되었으며,  rFID와 FID 지표를 통해 기존 최첨단 오토인코딩 방식과 비교 평가되었습니다. 결과적으로, $\epsilon$-VAE는 높은 재구성 품질을 달성하여 downstream 생성 품질을 22% 향상시키고 추론 속도를 2.3배 향상시켰습니다.

### 시사점, 한계점

- **시사점:**

    - 디퓨전 프로세스를 이용한 새로운 오토인코더 구조 ($\epsilon$-VAE)를 제시하여,  기존 방식보다 높은 재구성 및 생성 품질을 달성했습니다.

    - 추론 속도를 2.3배 향상시켰습니다.

    - 반복적인 생성과 오토인코딩을 통합하는 새로운 관점을 제공합니다.

- **한계점:**

    - 본 논문에서 제시된 $\epsilon$-VAE의 성능 향상이 특정 데이터셋이나 작업에 국한될 가능성이 있습니다. 더 다양한 데이터셋과 작업에 대한 추가적인 실험이 필요합니다.

    - 디퓨전 프로세스의 계산 비용이 높을 수 있으며, 이는 실제 응용에 제약이 될 수 있습니다.

    - $\epsilon$-VAE의  하이퍼파라미터 최적화에 대한 자세한 설명이 부족합니다.

[PDF 보기](https://arxiv.org/pdf/2410.04081)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).