每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

编辑:通过编码器-解码器架构减轻注意力损失,增强视觉变换器

Created by
  • Haebom

作者

冯文峰、王洪祥、王建龙、张鑫、赵晶晶、梁悦悦、陈翔、韩多奎

大纲

本文提出了 EDIT(编码器-解码器图像变换器),这是一种新颖的架构,旨在缓解 Vision Transformer 模型中观察到的注意力同步现象。EDIT 采用编码器-解码器架构,其中编码器使用自注意力机制处理图像块,解码器使用交叉注意力机制聚焦于 [CLS] 标记。与传统的编码器-解码器架构不同,E​​DIT 允许解码器从低级特征开始逐层逐步改进表征。EDIT 通过顺序注意力图提供可解释性,并在 ImageNet-1k、ImageNet-21k 和迁移学习任务上始终优于 DeiT3 模型。

Takeaways, Limitations

提出了一种新颖的架构来解决注意力同步问题。
通过层对齐的编码器-解码器架构进行渐进式特征提取。
通过顺序注意力图提高模型的可解释性。
证明了在 ImageNet 和迁移学习任务上 DeiT3 模型的性能改进。
论文中没有具体说明Limitations。
👍