Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MergeVQ: A Unified Framework for Visual Generation and Representation with Disentangled Token Merging and Quantization

Created by
  • Haebom

저자

Siyuan Li, Luyuan Zhang, Zedong Wang, Juanxi Tian, Cheng Tan, Zicheng Liu, Chang Yu, Qingsong Xie, Haonan Lu, Haoqian Wang, Zhen Lei

개요

MergeVQ는 벡터 양자화(VQ) 기반의 마스크 이미지 모델링(MIM)에서 이미지 생성과 시각적 표현 학습 간의 균형을 개선하기 위해 토큰 병합 기술을 통합한 새로운 방법입니다. 인코더의 self-attention 블록 이후 토큰 병합 모듈을 사용하여 상위 k개의 의미를 잠재 공간에서 분리하고 Look-up Free Quantization(LFQ) 및 전역 정렬을 수행합니다. 디코더의 cross-attention을 통해 미세한 디테일을 복구하여 이미지를 재구성합니다. 이미지 생성 단계에서는 MergeAR을 도입하여 KV Cache 압축을 통해 효율적인 래스터 순서 예측을 수행합니다. ImageNet 실험 결과, MergeVQ는 시각적 표현 학습과 이미지 생성 작업 모두에서 경쟁력 있는 성능을 달성하면서 토큰 효율성과 추론 속도를 유지하는 것을 확인했습니다.

시사점, 한계점

시사점:
VQ 기반 MIM에서 이미지 생성과 시각적 표현 학습 간의 상충 관계를 효과적으로 해결하는 새로운 방법 제시.
토큰 병합 기술을 통해 토큰 효율성과 추론 속도 향상.
ImageNet 실험을 통해 이미지 생성 및 시각적 표현 학습에서 경쟁력 있는 성능을 검증.
한계점:
현재 ImageNet 데이터셋에 대한 결과만 제시되어 다른 데이터셋으로의 일반화 성능은 추가 검증 필요.
MergeVQ의 성능 향상이 토큰 병합 기술에 의한 것인지, 다른 요인에 의한 것인지에 대한 명확한 분석 부족.
제안된 방법의 계산 복잡도 및 메모리 사용량에 대한 자세한 분석 부족.
👍