画像ベースの視覚的重要性予測の分野における最近の進歩にもかかわらず、複数のデータセットで視覚的固定を予測することは依然として困難であり、これはデータセット偏向によるものであることを示している。あるデータセットでトレーニングされたモデルを別のデータセットに適用すると、パフォーマンスが大幅に低下します。データセットの多様性を増やしても、これらのデータセット間のギャップは解消されず、約60%がデータセットごとの偏りに起因します。この一般化ギャップを解決するために、データセットに依存しないエンコーダ - デコーダ構造に基づいて、マルチスケール構造、中心偏向、固定拡散などの解釈可能なメカニズムを制御する20未満のデータセット固有のパラメータを追加する新しいアーキテクチャを提案します。新しいデータにこれらのパラメータのみを適応させることで、一般化ギャップの75%以上を解決でき、50個のサンプルだけでも大幅な改善を達成できます。提案されたモデルは、MIT / Tuebingen Saliency Benchmarkの3つのデータセット(MIT300、CAT2000、COCO-Freeview)で新しい最高のパフォーマンスを達成し、無関係なデータセットで一般化したときにも優れたパフォーマンスを示しました。さらに、モデルは絶対サイズと相対サイズの両方を組み合わせた複雑なマルチスケール効果を示し、空間的視覚的重要性の特性について貴重な洞察を提供します。