每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

是什么推动了视觉生成模型的组合泛化?

Created by
  • Haebom

作者

卡里姆·法里德、拉贾特·萨哈伊、尤姆娜·阿里·阿尔纳加尔、西蒙·施罗迪、沃尔克·费舍尔、科迪莉亚·施密德、托马斯·布洛克斯

大纲

本研究系统地探究了提升视觉生成模型中建设性泛化的因素。具体而言,我们通过实验探究了各种设计选择,这些选择会对图像和视频生成模型中的建设性泛化产生积极或消极的影响。我们的主要发现表明,训练目标是离散的还是连续的,以及关于组成概念的条件信息的提供程度,都会显著影响建设性泛化。此外,我们提出,可以通过使用基于 JEPA 的辅助连续目标来降低 MaskGIT 的离散损失,从而提升 MaskGIT 等离散模型的建设性性能。

Takeaways,Limitations

Takeaways:
揭示视觉生成模型建设性概括的关键因素。
表明离散/连续训练目标的重要性。
我们提出了一种新方法来提高 MaskGIT 等模型的性能。
Limitations:
需要进一步研究来确定特定模型和数据集的普遍性。
需要进一步分析来确定为什么基于 JEPA 的辅助目标有助于提高性能。
缺乏对影响建设性概括的其他因素的探索。
👍