본 논문은 이미지 토큰화 패러다임을 패치 기반에서 채널 기반으로 전환하는 Channel-wise Vector Quantization (CVQ)을 제안합니다. CVQ는 각 채널의 특징 맵을 양자화하여 이미지를 공간 패치의 격자보다는 이산적인 시각적 디테일 수준으로 표현합니다. 이를 기반으로 하는 Channel-wise Autoregressive (CAR) 모델은 다음 채널 예측 방식을 통해 텍스트-이미지 생성에서 뛰어난 성능을 보여줍니다.
🔑 시사점 및 한계
•
이미지 토큰화 방식을 채널 단위로 변경하여 기존 패치 기반 방식 대비 우수한 재구성 품질을 달성합니다.
•
채널별 순차적 예측을 통해 전역적인 구조에서 미세한 디테일까지 점진적으로 풍부한 시각적 정보를 생성하는 새로운 자동회귀 모델을 제시합니다.
•
16K 이상의 대규모 코드북 크기에서도 100%의 코드북 활용률을 달성하며 효율성을 입증했습니다.
•
제안된 CAR 모델은 텍스트-이미지 생성에서 높은 DPG 및 GenEval 점수를 기록하며 효과성을 보여줍니다.
•
본 연구의 한계점 또는 향후 과제로는 다양한 데이터셋과 작업에 대한 CVQ 및 CAR 모델의 일반화 성능 검증이 필요할 수 있습니다.