[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

EDIT: Enhancing Vision Transformers by Mitigating Attention Sink through an Encoder-Decoder Architecture

Created by
  • Haebom

作者

Wenfeng Feng, Guoying Sun

概要

本論文では,Vision Transformerモデルで観測されるアテンションシンク現象を軽減するために,新しいアーキテクチャであるEDIT(Encoder-Decoder Image Transformer)を提案する。アテンションシンクは、過剰なアテンションが[CLS]トークンに割り当てられ、モデルのイメージパッチ処理能力を歪める現象です。これを解決するために、エンコーダはイメージパッチを処理するためにセルフアテンションを使用し、デコーダは[CLS]トークンに集中するためにクロスアテンションを使用する階層アラインメントエンコーダ - デコーダアーキテクチャを導入します。従来のエンコーダ - デコーダフレームワークとは異なり、デコーダは高レベルエンコーダ表現にのみ依存するのではなく、低レベルの特徴から情報を抽出して階層ごとに表現を徐々に改善します。 EDITは、順次アテンションマップを介して視覚的に解釈可能であり、主な画像特徴の階層的焦点を示しています。 ImageNet-1k と ImageNet-21k の実験と遷移学習作業は、EDIT が DeiT3 モデルよりも一貫したパフォーマンス向上を達成することを示しています。これらの結果は、EDITの設計がアテンションシンクを解決し、視覚的特徴抽出を改善するのに有効であることを強調している。

Takeaways、Limitations

Takeaways:
Vision Transformerのアテンションシンク問題を効果的に解決する新しいアーキテクチャ(EDIT)の提示
階層整列エンコーダ - デコーダ構造による低レベルから高レベルの特徴を徐々に処理してパフォーマンスを向上
順次アテンションマップによるモデルの解析性の向上
ImageNet-1k, ImageNet-21k, 遷移学習タスクにおけるDeiT3モデルと比較した性能向上の確認
Limitations:
提示されたアーキテクチャの計算コストとメモリ使用量の分析不足
他の最新のVision Transformerモデルとの比較分析がさらに必要
特定のデータセットのパフォーマンス向上を他のデータセットに一般化できるかどうかに関するさらなる研究が必要
👍