본 논문은 기존의 이미지 기반 주목도 예측 모델들이 기존 벤치마크에서 높은 성능을 달성했음에도 불구하고, 다양한 데이터셋에 걸쳐 주목점을 예측하는 데 어려움을 겪는다는 것을 보여줍니다. 특히, 하나의 데이터셋에서 학습된 모델을 다른 데이터셋에 적용하면 성능이 약 40%나 저하되는 것을 발견했습니다. 데이터셋 다양성을 높여도 이러한 데이터셋 간의 성능 차이는 60% 가까이 남아있다는 것을 밝혔습니다. 이러한 일반화 성능 저하 문제를 해결하기 위해, 본 논문에서는 데이터셋에 독립적인 인코더-디코더 구조를 기반으로, 해석 가능한 메커니즘(멀티스케일 구조, 중심 편향, 주목점 분포 등)을 제어하는 20개 미만의 데이터셋 특정 파라미터를 추가하는 새로운 아키텍처를 제안합니다. 새로운 데이터에 이러한 파라미터만 적용하여 일반화 성능 저하의 75% 이상을 해결했으며, 50개의 샘플만으로도 상당한 성능 향상을 달성했습니다. 제안된 모델은 MIT/Tuebingen 주목도 벤치마크의 세 가지 데이터셋(MIT300, CAT2000, COCO-Freeview) 모두에서 최첨단 성능을 달성했으며, 특히 관련 없는 데이터셋에서 일반화하는 경우에도 우수한 성능을 보였습니다. 또한, 절대적 크기와 상대적 크기를 결합한 복잡한 멀티스케일 효과를 보여주는 공간적 주목도 특성에 대한 귀중한 통찰력을 제공합니다.