What Drives Compositional Generalization in Visual Generative Models?
Created by
Haebom
저자
Karim Farid, Rajat Sahay, Yumna Ali Alnaggar, Simon Schrodi, Volker Fischer, Cordelia Schmid, Thomas Brox
개요
본 연구는 시각적 생성 모델에서 구성적 일반화 능력을 향상시키는 요인을 체계적으로 연구한다. 특히 이미지 및 비디오 생성 모델에서 구성적 일반화에 긍정적 또는 부정적 영향을 미치는 다양한 설계 선택 사항을 실험을 통해 조사했다. 주요 연구 결과는 훈련 목표의 이산/연속 여부와 구성 요소 개념에 대한 조건부 정보 제공 정도가 구성적 일반화에 중요한 영향을 미친다는 것이다. 또한, MaskGIT과 같은 이산 모델에서 MaskGIT의 이산 손실을 보조적인 JEPA 기반의 연속 목표로 완화함으로써 구성적 성능을 향상시킬 수 있음을 제시한다.