V2Flow는 대규모 언어 모델(LLM)의 어휘 공간과 구조 및 잠재 분포 정렬을 유지하면서 고충실도 재구성이 가능한 이산 시각 토큰을 생성하는 새로운 토크나이저입니다. 이러한 시각-어휘의 긴밀한 결합을 활용하여 기존 LLM 위에서 자기회귀적 시각 생성을 가능하게 합니다. 시각 토큰화를 흐름 일치 문제로 공식화하여 표준 정규 사전에서 연속 이미지 분포로의 매핑을 학습하며, LLM 어휘 공간 내에 임베딩된 토큰 시퀀스를 조건으로 합니다. 핵심 설계는 두 가지로, 첫째, LLM 어휘에 대한 소프트 범주형 분포로 표현되는 압축된 토큰 시퀀스로 시각 데이터를 압축하는 시각 어휘 재샘플러(Visual Vocabulary resampler)를 제안합니다. 이를 통해 기존 LLM에 시각 토큰을 원활하게 통합하여 자기회귀적 시각 생성을 가능하게 합니다. 둘째, 마스크된 자기회귀 정류 흐름 디코더(masked autoregressive Rectified-Flow decoder)를 제시하여 마스크된 트랜스포머 인코더-디코더를 사용하여 시각 토큰을 문맥적으로 풍부하게 임베딩으로 개선하고, 이 임베딩은 정확한 재구성을 위한 전용 속도장을 조건으로 합니다. 또한, 경쟁력 있는 재구성 품질을 유지하면서 유연한 시퀀스 길이를 보장하는 자기회귀 정류 흐름 샘플링 전략이 통합되었습니다. 광범위한 실험을 통해 V2Flow가 주류 VQ 기반 토크나이저보다 우수하며 기존 LLM 위에서 자기회귀적 시각 생성을 가능하게 함을 보여줍니다.