Steering Visual Generation in Unified Multimodal Models with Understanding Supervision

작성자

Haebom

카테고리

Empty

저자

Zeyu Liu, Zanlin Ni, Yang Yue, Cheng Da, Huan Yang, Di Zhang, Kun Gai, Gao Huang

💡 개요

본 논문은 이해와 생성을 통합하는 멀티모달 모델의 잠재력을 탐구하며, 기존 모델들이 이해와 생성 부분을 분리하는 경향이 있음을 지적한다. 제안된 UNO(Understanding-Oriented Post-Training) 프레임워크는 이해를 별도의 작업뿐만 아니라 생성 표현을 제어하는 직접적인 감독 신호로 활용하여, 이해와 생성 간의 시너지를 복원한다. 이를 통해 이미지 생성 및 편집 작업에서 이해 능력이 생성 능력을 효과적으로 촉진함을 보여준다.

🔑 시사점 및 한계

•

멀티모달 모델에서 이해와 생성 간의 명시적인 연결을 통해 상호 발전을 강화할 수 있다.

•

캡셔닝 및 시각 회귀와 같은 이해 기반 목표는 생성 모델의 성능 향상에 효과적인 감독 신호로 작용할 수 있다.

•

제안된 UNO 프레임워크의 경량성이 다양한 멀티모달 생성 작업에 쉽게 적용될 수 있다.

•

UNO 프레임워크가 다양한 생성 작업 및 데이터셋에 대해 얼마나 일반화될 수 있는지, 그리고 어떤 종류의 이해 감독이 가장 효과적인지에 대한 추가 연구가 필요하다.

PDF 보기

Made with Slashpage