UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding
Created by
Haebom
저자
Yang Jiao, Haibo Qiu, Zequn Jie, Shaoxiang Chen, Jingjing Chen, Lin Ma, Yu-Gang Jiang
개요
UniToken은 불연속 및 연속 표현을 결합하여 시각적 입력을 인코딩하는 자기회귀 생성 모델입니다. 이를 통해 통합된 시각적 이해 및 이미지 생성 작업을 원활하게 통합합니다. 기존의 일방적인 시각적 표현에 의존하는 접근 방식과 달리, 통합된 시각적 인코딩 프레임워크는 고차원 의미와 저차원 세부 정보를 모두 포착하여 이기종 작업이 고유한 특성에 따라 도메인별 지식을 선택적으로 동화할 수 있도록 다차원 정보를 제공합니다. 심층적인 실험을 통해 시각적 이해와 이미지 생성이 모두 가능한 통합 모델을 개발하기 위한 핵심 원칙을 밝혀냈습니다. 다양한 주요 벤치마크에 대한 광범위한 평가는 UniToken이 최첨단 성능을 달성하고 기존 접근 방식을 능가함을 보여줍니다. 이러한 결과는 UniToken을 이 분야의 미래 연구를 위한 강력한 기반으로 확립합니다. 코드와 모델은 https://github.com/SxJyJay/UniToken 에서 제공됩니다.