Explanation-guided learning (EGL)이 컴퓨터 비전 분야에서 모델 예측과 해석 가능한 추론을 일치시키는 데 유망하지만, 기존 방식들은 외부 주석 또는 휴리스틱 기반 분할에 의존하여 잡음이 많고 부정확하며 확장하기 어려운 문제점을 가지고 있습니다. 본 논문에서는 낮은 품질의 감독 신호가 모델 성능을 저하시킬 수 있다는 것을 경험적 및 이론적으로 증명합니다. 이에 대한 해결책으로, ALIGN이라는 새로운 프레임워크를 제안하며, 이는 분류기와 마스크를 반복적으로 공동 훈련시킵니다. 마스크는 유용한 영역을 강조하는 부드러운 마스크를 생성하고, 분류기는 예측 정확도와 설명 맵과 학습된 마스크 간의 정렬을 위해 최적화됩니다. ALIGN은 고품질 마스크를 활용하여 해석 가능성과 일반화 성능을 향상시키며, VLCS 및 Terra Incognita 벤치마크에서 6개의 강력한 baseline보다 일관적으로 우수한 성능을 보입니다. 또한, ALIGN은 충분성과 포괄성 측면에서 우수한 설명 품질을 제공하여 정확하고 해석 가능한 모델을 생성하는 데 효과적입니다.