Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

UniCMs: A Unified Consistency Model For Efficient Multimodal Generation and Understanding

Created by
  • Haebom

저자

Chenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng

개요

본 논문은 이미지와 텍스트 생성 및 이해를 위한 통합된 일관성 모델(UniCMs)을 제안합니다. 기존의 통합 다중 모달 모델에 일관성 증류(CD)를 적용하여, 이미지와 텍스트 생성에 대한 통합된 탈잡음 관점을 확립하는 데 초점을 맞춥니다. 이를 위해 두 모달리티 모두 이산 토큰을 사용하여 언어 모델링 기능을 보존하고, 텍스트 탈잡음 경로는 자기회귀 언어 모델의 병렬 디코딩 추적을 이용하며, 이미지 토큰의 탈잡음 경로는 표준 이산 확산을 따릅니다. 통합된 목적 함수로 UniCMs를 동시에 학습시키고, 경로 분할 전략을 통해 학습 수렴성을 향상시킵니다. 실험 결과, 텍스트-이미지 생성에서 UniCMs는 기존 모델보다 우수한 성능을 보이며, 이미지-텍스트 생성에서도 향상된 성능과 속도를 보입니다. 코드는 GitHub에서 공개됩니다.

시사점, 한계점

시사점:
이미지와 텍스트 생성 및 이해를 위한 효율적인 통합된 일관성 모델을 제시합니다.
텍스트-이미지 생성 및 이미지-텍스트 생성 모두에서 기존 최첨단 모델을 능가하는 성능을 달성합니다.
기존 모델보다 훨씬 빠른 생성 속도를 제공합니다.
한계점:
본 논문에서 제시된 UniCMs의 성능 향상이 특정 데이터셋과 평가 지표에 국한될 가능성이 있습니다.
다양한 다중 모달 작업에 대한 일반화 성능에 대한 추가적인 연구가 필요합니다.
더욱 복잡하고 다양한 모달리티를 포함하는 작업에 대한 적용 가능성 및 한계에 대한 추가적인 분석이 필요합니다.
👍