本文探讨了当前大型多模态模型 (LMM) 中的物体感知问题。具体而言,我们证明了在没有明确物体感知相关数据的情况下训练的 LMM 也能展现物体感知能力,并提出了一种利用注意力图的“注意-分割”方法来验证这一点。此外,我们提出了一种基于扩散的视觉编码器 DIFFLMM,以增强物体感知性能。DIFFLMM 展现了通用性和可扩展性,且不受物体感知特定数据的限制,并且在物体感知相关和通用视觉问答基准测试中均优于现有模型。值得注意的是,即使在没有物体感知相关数据的情况下训练,该模型的物体感知掩码召回率也达到了 44.2,优于 GLaMM。