本論文では,Vision Transformerモデルで観測されるアテンションシンク現象を軽減するために,新しいアーキテクチャであるEDIT(Encoder-Decoder Image Transformer)を提案する。アテンションシンクは、過剰なアテンションが[CLS]トークンに割り当てられ、モデルのイメージパッチ処理能力を歪める現象です。これを解決するために、エンコーダはイメージパッチを処理するためにセルフアテンションを使用し、デコーダは[CLS]トークンに集中するためにクロスアテンションを使用する階層アラインメントエンコーダ - デコーダアーキテクチャを導入します。従来のエンコーダ - デコーダフレームワークとは異なり、デコーダは高レベルエンコーダ表現にのみ依存するのではなく、低レベルの特徴から情報を抽出して階層ごとに表現を徐々に改善します。 EDITは、順次アテンションマップを介して視覚的に解釈可能であり、主な画像特徴の階層的焦点を示しています。 ImageNet-1k と ImageNet-21k の実験と遷移学習作業は、EDIT が DeiT3 モデルよりも一貫したパフォーマンス向上を達成することを示しています。これらの結果は、EDITの設計がアテンションシンクを解決し、視覚的特徴抽出を改善するのに有効であることを強調している。