每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

SiNGER:更清晰的声音进一步提炼视觉变形金刚

Created by
  • Haebom

作者

柳根赫、郑善宰、崔允英、金在升、黄孝石

SiNGER(奇异零空间引导能量重新分配)用于解决基于 Vision Transformer 的模型中的高维伪影问题。

大纲

本文针对基于 Vision Transformer 的模型中特征产生的高维伪影问题,提出了 SiNGER(奇异零空间引导能量重分配),这是一个旨在解决该问题的新型知识蒸馏框架。Vision Transformer 虽然广泛应用于视觉领域,但它会产生高维伪影,从而降低表征质量。在知识蒸馏过程中,这些伪影会影响学生模型,导致过拟合于伪影而非有用信号。SiNGER 旨在通过教师特征细化来保留有用信号,同时抑制伪影。具体而言,它利用零空间引导的扰动来保留信息,并通过基于 LoRA 的适配器高效实现。通过大量实验,我们证明 SiNGER 能够提升学生模型的性能,在多个下游任务中达到最佳性能,并产生更清晰、更易于解释的表征。

Takeaways, Limitations

Takeaways:
我们通过解决高维伪影问题提高了基于 Vision Transformer 模型的知识蒸馏效率。
我们提出了一个新颖的框架来解决伪影抑制和信息保存之间的权衡问题。
利用基于 LoRA 的适配器可以实现高效实施。
在多个下游任务中实现了 SOTA 性能。
提高了模型的可解释性。
Limitations:
本文没有包含任何关于Limitations的具体参考。
👍