每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MOCHA:多模态对象感知跨弧结构对齐

Created by
  • Haebom

作者

埃琳娜·卡穆福、弗朗西斯科·巴巴托、梅特·奥扎伊、西蒙·米拉尼、翁贝托·米凯利

MOCHA:多模态对象感知跨弧结构对齐

大纲

本文介绍了一种知识蒸馏方法——MOCHA(多模态对象感知跨结构对齐),该方法将特定领域的多模态语义从大规模视觉语言模型(例如 LLaVa)迁移到轻量级的视觉专用目标检测学生模型(例如 YOLO)。MOCHA 利用一个转换模块将学生模型的特征映射到一个公共空间,并使用双目标损失函数训练学生模型和变换模型,以增强局部对齐和全局关系一致性。与专注于密集或全局对齐的现有方法不同,MOCHA 在对象级别运行,无需修改教师模型或在推理时输入文本即可实现高效的语义迁移。本研究在少样本环境下的四个个性化检测基准测试中验证了该方法。结果表明,与基准模型相比,MOCHA 的性能持续提升,平均得分提升了 +10.1。尽管 MOCHA 架构紧凑,但它的性能却堪比更大型的多模态模型,证明了其在实际应用中的适用性。

Takeaways, Limitations

Takeaways:
我们提出了一种新颖的知识提炼方法,用于有效地将知识从大规模视觉语言模型转移到轻量级视觉模型。
通过对象级对齐可以实现高效的语义传输。
无需修改教师模型或输入文本。
展示了小规模环境中各种基准测试的性能改进。
适合实际部署的轻量级架构。
Limitations:
论文中没有明确提及具体的 Limitations。
(推测)知识提炼可能存在普遍的局限性(例如,依赖于教师模型的性能、潜在的信息丢失)。
(推测)可能仅适用于某些基准和少量镜头设置。
👍