每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

生成任意场景:场景图驱动的数据合成,用于视觉生成训练

Created by
  • Haebom

作者

高子琪、黄伟凯、张洁宇、Aniruddha Kembhavi、Ranjay Krishna

大纲

本文旨在解决文本到视觉生成模型的局限性,这些模型拥有出色的视觉保真度,但在构图泛化和语义对齐方面存在困难。为此,作者提出了“Generate Any Scene”数据引擎,它可以系统地列举各种视觉场景。该引擎根据对象、属性和关系的结构化分类法,动态构建不同复杂程度的场景图,并将其转换为字幕和视觉问答,从而实现自动评估和奖励建模。我们的研究结果表明,“Generate Any Scene”通过开发自我改进框架、提炼算法和奖励模型,提升了多个开源模型的性能,并证明了其在下游内容审核任务中的适用性。

Takeaways, Limitations

Takeaways:
我们提出可以使用合成数据来解决文本视觉模型的组合泛化和语义对齐问题。
我们提出了一个利用合成数据的框架,以多种方式进行,包括自我改进、提炼和奖励建模。
提高开源模型的性能并展示其对下游任务的适用性。
Limitations:
缺少“生成任意场景”引擎的具体实现和参数设置的信息。
缺乏对有助于提高模型性能的具体因素的定量分析。
需要进一步审查以确定合成数据的偏差及其与真实数据的差异。
👍