每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

重建对齐改进统一多模态模型

Created by
  • Haebom

作者

谢霁、Trevor Darrell、Luke Zettlemoyer、王旭东

大纲

本文提出了一种高效的后处理方法——重建对齐 (RecA),用于改进统一多模态模型 (UMM) 的生成和理解。现有的 UMM 学习方法受限于依赖图文对,而图文对的标题往往会遗漏视觉细节。RecA 通过使用自身的视觉理解嵌入来调节 UMM,将视觉理解编码器嵌入用作不带标题的密集“文本提示”,并使用基于自监督学习的重建损失函数来优化输入图像的重建,从而重新调整理解和生成。RecA 适用于各种 UMM 架构(自回归、掩蔽自回归和基于扩散的架构),并在 GenEval、DPGBench、ImgEdit 和 GEdit 等多个基准测试中展现出性能提升。它仅需 27 个 GPU 小时的后处理时间即可实现显著的性能提升,展现出一种高效且通用的 UMM 后处理对齐策略,其性能优于大规模开源模型。

Takeaways,Limitations

Takeaways:
我们提出了 RecA,一种新颖的后处理方法,可以有效地提高 UMM 的生成和编辑性能。
通过利用视觉理解嵌入而不依赖于字幕来提供丰富的监督学习。
适用于各种 UMM 架构的通用性。
在更少的 GPU 时间(27 小时)下显著提高性能(GenEval、DPGBench、ImgEdit、GEdit 基准测试已确认性能提升)。
优于大型开源模型。
Limitations:
RecA 的性能提升是针对特定基准的,其在其他基准或数据集上的泛化性能还有待进一步研究。
RecA 可能无法在所有 UMM 架构上提供相同程度的性能提升。缺乏对不同架构之间性能差异的分析。
由于它是一种后处理方法,因此性能提升的程度可能因初始学习的质量而异。
👍