每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

大型多模态模型中无需基础监督的紧急视觉基础

Created by
  • Haebom

作者

曹胜草、桂良彦、王玉雄

大纲

本文探讨了当前大型多模态模型 (LMM) 中的物体感知问题。具体而言,我们证明了在没有明确物体感知相关数据的情况下训练的 LMM 也能展现物体感知能力,并提出了一种利用注意力图的“注意-分割”方法来验证这一点。此外,我们提出了一种基于扩散的视觉编码器 DIFFLMM,以增强物体感知性能。DIFFLMM 展现了通用性和可扩展性,且不受物体感知特定数据的限制,并且在物体感知相关和通用视觉问答基准测试中均优于现有模型。值得注意的是,即使在没有物体感知相关数据的情况下训练,该模型的物体感知掩码召回率也达到了 44.2,优于 GLaMM。

Takeaways,Limitations

Takeaways:
我们发现,即使在没有明确的对象感知相关数据的情况下训练的 LMM 中也可以展示对象感知能力。
我们提出了一种新方法,使用“注意和分割”方法来验证 LMM 的对象感知能力。
我们通过使用基于扩散的视觉编码器的 DIFFLMM 来提高对象感知能力和泛化能力。
在与物体感知相关和一般视觉问答基准上取得了有竞争力的表现。
在没有物体感知相关数据训练的模型中,它的表现优于 GLaMM。
Limitations:
虽然论文中没有具体提到Limitations,但还需要进一步的研究来进一步探索DIFFLMM的性能增强及其在物体感知能力方面的局限性。
👍