每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

CLIP 可以理解深度

Created by
  • Haebom

作者

Sohee Kim, Jisu Kang, Dunam Kim, Seokju Lee

大纲

本文证明了 CLIP 的视觉-语言对齐(基于网络爬虫数据进行预训练)无需微调即可应用于子任务,即使任务本身训练效果不佳。具体而言,我们专注于单目深度估计任务,并探索 CLIP 的对比先验知识为何难以泛化,这与它在生成模型或语义分割等领域的成功有所不同。为了解决 CLIP 无法始终如一地捕捉图像块与描述距离的自然语言提示之间的相似性问题,我们将冻结文本编码器的语义先验知识提炼成一个可训练的嵌入矩阵,称为“镜像”,而无需使用预训练的自然语言标记嵌入。“镜像”的主要设计目标是导出能够近似最佳自然语言提示的非人类语言提示,例如“这个位置距离摄像头有多远?”。使用这种方法,我们在冻结 CLIP 的基础上联合训练了两个轻量级模块(镜像和压缩解码器),以执行密集深度预测。与现有深度模型相比,该模型在参数和计算方面显著提升,并且在 NYU Depth v2 和 KITTI 基准数据集上的表现与多个最先进的视觉模型相当,优于所有基于冻结 CLIP 先验知识的视觉语言深度模型。实验结果表明,CLIP 在空间和时间一致性方面的欠佳深度理解可以得到显著纠正,而无需对 CLIP 进行微调或将镜像与预训练的子词标记嵌入进行关联。此外,对镜像消融状态的收敛性研究表明,它能够隐式学习物体,其中语义线索在检测物体(例如人和窗户)时起着至关重要的作用。

Takeaways,Limitations

Takeaways:
利用 CLIP 预先训练的视觉语言对齐,我们证明了它对各种子任务的适用性,无需进行微调。
通过轻量级模型结构提高计算效率。
在单目深度估计任务中实现最先进的性能。
提出了一种新方法来弥补 CLIP 的局限性。
Limitations:
缺乏关于镜子如何隐式地了解有关特定对象的信息的清晰描述。
需要进一步研究所提出方法的泛化性能。
需要对不同的数据集和任务进行额外的实验。
👍