本文介绍了一种知识蒸馏方法——MOCHA(多模态对象感知跨结构对齐),该方法将特定领域的多模态语义从大规模视觉语言模型(例如 LLaVa)迁移到轻量级的视觉专用目标检测学生模型(例如 YOLO)。MOCHA 利用一个转换模块将学生模型的特征映射到一个公共空间,并使用双目标损失函数训练学生模型和变换模型,以增强局部对齐和全局关系一致性。与专注于密集或全局对齐的现有方法不同,MOCHA 在对象级别运行,无需修改教师模型或在推理时输入文本即可实现高效的语义迁移。本研究在少样本环境下的四个个性化检测基准测试中验证了该方法。结果表明,与基准模型相比,MOCHA 的性能持续提升,平均得分提升了 +10.1。尽管 MOCHA 架构紧凑,但它的性能却堪比更大型的多模态模型,证明了其在实际应用中的适用性。