本論文では、Vision Transformer(ViT)の主なLimitationsである周波数消滅問題を解決するために、周波数ダイナミックアテンション変調(FDAM)技術を提案しています。 (FreqScale)2つの技術で構成されています。これにより、ViTの周波数応答を直接調整し、詳細と質感の損失を防ぎ、さまざまなモデル(SegFormer、DeiT、MaskDINO)と課題(Semantic Segmentation、Object Detection、Instance Segmentation)で性能向上を達成しました。