본 논문은 자기회귀(AR) 모델 기반 이미지 생성에서 중요한 요소인 시각 토크나이저(VT)의 성능을 종합적으로 평가하는 새로운 벤치마크 VTBench를 제안합니다. 기존 벤치마크가 AR 모델의 전반적인 성능에만 초점을 맞춘 것과 달리, VTBench는 이미지 재구성, 세부 정보 보존, 텍스트 보존 등 세 가지 핵심 과제에 걸쳐 VT의 성능을 체계적으로 평가합니다. 다양한 평가 시나리오와 측정 지표를 사용하여 최첨단 VT들을 비교 분석한 결과, 연속형 VAE가 이산형 VT보다 공간 구조와 의미적 세부 정보를 더 잘 보존하는 우수한 시각적 표현을 생성함을 보여줍니다. 또한, GPT-4o 이미지 생성의 잠재적인 AR 특성을 분석하여 시각 토크나이징의 역할에 대한 새로운 통찰력을 제공하고, VTBench와 코드베이스를 공개하여 향후 연구를 지원합니다.