TokLIP은 고차원 의미론을 통합하여 이해력을 향상시킨 시각적 토큰화 기법을 제시하는 논문입니다. 기존의 Chameleon이나 Emu3와 같은 토큰 기반 다중 모드 통합 방식은 높은 훈련 연산량과 고차원 의미론 부족으로 인한 제한된 이해 성능이라는 문제점을 가지고 있습니다. TokLIP은 벡터 양자화(VQ) 토큰을 의미화하고 CLIP 수준의 의미론을 통합하여 표준 VQ 토큰을 사용한 엔드투엔드 다중 모드 자기회귀 훈련을 가능하게 합니다. 저수준 이산 VQ 토큰화와 ViT 기반 토큰 인코더를 통합하여 고수준 연속 의미론을 포착하며, 기존의 고수준 특징을 이산화하는 방식과 달리 이해와 생성에 대한 훈련 목표를 분리하여 고급 VQ 토큰화를 직접 적용할 수 있도록 합니다. 실험 결과, TokLIP은 뛰어난 데이터 효율성을 달성하여 고차원 의미 이해력을 갖춘 시각적 토큰을 생성하고 저수준 생성 능력을 향상시켜 이해 및 생성 작업 모두에서 자기회귀 Transformer에 적합함을 보여줍니다. 코드와 모델은 https://github.com/TencentARC/TokLIP 에서 확인할 수 있습니다.