SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation
Created by
Haebom
저자
Zisheng Chen, Chunwei Wang, Xiuwei Chen, Hongbin Xu, Runhui Huang, Jun Zhou, Jianhua Han, Hang Xu, Xiaodan Liang
개요
본 논문은 다중 모드 이해 및 생성을 위한 일관된 이산 표현을 제공하는 의미 기반 계층적 코드북을 통한 통합 이미지 토크나이저인 SemHiTok을 소개합니다. 기존의 통합 이미지 토크나이저는 다중 모드 이해를 위한 고차원 의미 특징과 생성을 위한 저차원 픽셀 특징을 모두 포착하도록 설계되었지만, 의미 증류 및 픽셀 재구성 손실을 결합하여 학습하는 방법은 상반되는 특징 우선순위로 인해 성능 저하를 겪었습니다. SemHiTok은 사전 훈련된 의미 코드북에 픽셀 하위 코드북을 구축하는 새로운 의미 기반 계층적 코드북을 통해 이 문제를 해결합니다. 이 설계는 구조 및 학습 전략 측면에서 의미와 픽셀을 분리하여 토크나이저가 픽셀 특징을 포착하면서 고차원 의미 정보를 이해하는 능력을 유지할 수 있도록 합니다. 실험 결과, SemHiTok은 LLaVA-v1.5 설정에서 이미지 재구성과 다중 모드 이해 모두에서 최첨단 성능을 달성했으며, SemHiTok을 사용한 통합 MLLM은 다중 모드 이해 및 생성 작업에서 우수한 성능을 보였습니다. 특히 이미지 생성 작업인 MJHQ30K에서 최첨단 성능을 달성했습니다.
시사점, 한계점
•
시사점:
◦
의미 기반 계층적 코드북을 통해 다중 모드 이해와 생성을 위한 통합 이미지 토크나이저의 성능 향상을 제시.
◦
이미지 재구성 및 다중 모드 이해 작업에서 최첨단 성능 달성.
◦
통합 MLLM에서 다중 모드 이해 및 생성 작업 모두에서 우수한 성능을 보임.
◦
의미와 픽셀 특징을 효과적으로 분리하는 새로운 학습 전략 제시.
•
한계점:
◦
LLaVA-v1.5 설정에 국한된 실험 결과. 다른 설정이나 데이터셋에서의 일반화 성능 검증 필요.