Sign In

V2Flow: Unifying Visual Tokenization and Large Language Model Vocabularies for Autoregressive Image Generation

Created by
  • Haebom
Category
Empty

저자

Guiwei Zhang, Tianyu Zhang, Mohan Zhou, Yalong Bai, Biye Li

개요

V2Flow는 대규모 언어 모델(LLM)의 어휘 공간과 구조 및 잠재 분포 정렬을 유지하면서 고충실도 재구성이 가능한 이산 시각 토큰을 생성하는 새로운 토크나이저입니다. 이러한 시각-어휘의 긴밀한 결합을 활용하여 기존 LLM 위에서 자기회귀적 시각 생성을 가능하게 합니다. 시각 토큰화를 흐름 일치 문제로 공식화하여 표준 정규 사전에서 연속 이미지 분포로의 매핑을 학습하며, LLM 어휘 공간 내에 임베딩된 토큰 시퀀스를 조건으로 합니다. 핵심 설계는 두 가지로, 첫째, LLM 어휘에 대한 소프트 범주형 분포로 표현되는 압축된 토큰 시퀀스로 시각 데이터를 압축하는 시각 어휘 재샘플러(Visual Vocabulary resampler)를 제안합니다. 이를 통해 기존 LLM에 시각 토큰을 원활하게 통합하여 자기회귀적 시각 생성을 가능하게 합니다. 둘째, 마스크된 자기회귀 정류 흐름 디코더(masked autoregressive Rectified-Flow decoder)를 제시하여 마스크된 트랜스포머 인코더-디코더를 사용하여 시각 토큰을 문맥적으로 풍부하게 임베딩으로 개선하고, 이 임베딩은 정확한 재구성을 위한 전용 속도장을 조건으로 합니다. 또한, 경쟁력 있는 재구성 품질을 유지하면서 유연한 시퀀스 길이를 보장하는 자기회귀 정류 흐름 샘플링 전략이 통합되었습니다. 광범위한 실험을 통해 V2Flow가 주류 VQ 기반 토크나이저보다 우수하며 기존 LLM 위에서 자기회귀적 시각 생성을 가능하게 함을 보여줍니다.

시사점, 한계점

시사점:
기존 LLM에 시각 정보를 효과적으로 통합하는 새로운 방법 제시
고충실도 시각 재구성과 자기회귀적 시각 생성을 동시에 달성
VQ 기반 토크나이저보다 우수한 성능
유연한 시퀀스 길이 지원
한계점:
논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족함.
V2Flow의 성능 비교 대상이 충분히 다양하지 않을 수 있음.
실제 적용 시 계산 비용 및 메모리 사용량에 대한 분석이 필요함.
👍