Hita는 자기회귀적 이미지 생성 모델의 성능 향상을 위해 제안된 새로운 이미지 토크나이저입니다. 기존의 토크나이저가 국소적인 이미지 패치를 토큰으로 매핑하여 전역 정보를 제한적으로 활용하는 한계를 극복하기 위해, 학습 가능한 전역 쿼리와 국소 패치 토큰을 사용하는 전역-국소 토크나이징 기법을 도입했습니다. Hita는 전역 토큰을 먼저 배치하고 국소 토큰을 이어서 배치하는 순차 구조와, 양자화 해제된 토큰을 디코더에 입력하기 전에 전역 토큰을 우선적으로 처리하는 경량 융합 모듈을 통해 자기회귀적 생성 과정과의 정합성을 높였습니다. ImageNet 벤치마크에서 FID 2.59, IS 281.9를 달성하며 기존 토크나이저 기반 모델보다 우수한 성능을 보였고, 제로샷 스타일 전이 및 이미지 인페인팅에서도 효과적임을 보였습니다.