Sign In

Channel-wise Vector Quantization

Author
  • Haebom
Category
Empty

저자

Wei Song, Tianhang Wang, Yitong Chen, Tong Zhang, Zuxuan Wu, Min Li, Jiaqi Wang, Kaicheng Yu

💡 개요

본 논문은 이미지 토큰화 패러다임을 패치 기반에서 채널 기반으로 전환하는 Channel-wise Vector Quantization (CVQ)을 제안합니다. CVQ는 각 채널의 특징 맵을 양자화하여 이미지를 공간 패치의 격자보다는 이산적인 시각적 디테일 수준으로 표현합니다. 이를 기반으로 하는 Channel-wise Autoregressive (CAR) 모델은 다음 채널 예측 방식을 통해 텍스트-이미지 생성에서 뛰어난 성능을 보여줍니다.

🔑 시사점 및 한계

이미지 토큰화 방식을 채널 단위로 변경하여 기존 패치 기반 방식 대비 우수한 재구성 품질을 달성합니다.
채널별 순차적 예측을 통해 전역적인 구조에서 미세한 디테일까지 점진적으로 풍부한 시각적 정보를 생성하는 새로운 자동회귀 모델을 제시합니다.
16K 이상의 대규모 코드북 크기에서도 100%의 코드북 활용률을 달성하며 효율성을 입증했습니다.
제안된 CAR 모델은 텍스트-이미지 생성에서 높은 DPG 및 GenEval 점수를 기록하며 효과성을 보여줍니다.
본 연구의 한계점 또는 향후 과제로는 다양한 데이터셋과 작업에 대한 CVQ 및 CAR 모델의 일반화 성능 검증이 필요할 수 있습니다.
👍