MergeVQ는 벡터 양자화(VQ) 기반의 마스크 이미지 모델링(MIM)에서 이미지 생성과 시각적 표현 학습 간의 균형을 개선하기 위해 토큰 병합 기술을 통합한 새로운 방법입니다. 인코더의 self-attention 블록 이후 토큰 병합 모듈을 사용하여 상위 k개의 의미를 잠재 공간에서 분리하고 Look-up Free Quantization(LFQ) 및 전역 정렬을 수행합니다. 디코더의 cross-attention을 통해 미세한 디테일을 복구하여 이미지를 재구성합니다. 이미지 생성 단계에서는 MergeAR을 도입하여 KV Cache 압축을 통해 효율적인 래스터 순서 예측을 수행합니다. ImageNet 실험 결과, MergeVQ는 시각적 표현 학습과 이미지 생성 작업 모두에서 경쟁력 있는 성능을 달성하면서 토큰 효율성과 추론 속도를 유지하는 것을 확인했습니다.
시사점, 한계점
•
시사점:
◦
VQ 기반 MIM에서 이미지 생성과 시각적 표현 학습 간의 상충 관계를 효과적으로 해결하는 새로운 방법 제시.
◦
토큰 병합 기술을 통해 토큰 효율성과 추론 속도 향상.
◦
ImageNet 실험을 통해 이미지 생성 및 시각적 표현 학습에서 경쟁력 있는 성능을 검증.
•
한계점:
◦
현재 ImageNet 데이터셋에 대한 결과만 제시되어 다른 데이터셋으로의 일반화 성능은 추가 검증 필요.
◦
MergeVQ의 성능 향상이 토큰 병합 기술에 의한 것인지, 다른 요인에 의한 것인지에 대한 명확한 분석 부족.