본 논문은 다양한 악조건에 강인한 실세계 심도 추정 네트워크 구축을 위한 효과적인 해결책으로, 다중 스펙트럼 이미지로부터 심도를 추정하는 '정렬 및 융합(align-and-fuse)' 전략을 제안합니다. 이 전략은 먼저 여러 스펙트럼 대역 간의 임베딩 공간을 정렬하여 다중 스펙트럼 이미지에서 공유 가능한 표현을 학습하고, 그 후 선택적으로 다중 스펙트럼 특징을 집계하는 부착형 특징 융합 모듈을 훈련하여 신뢰할 수 있고 강인한 예측 결과를 얻습니다. 기존의 modality-wise 방법의 비효율성과 multi-modal fused inference 방법의 전문화된 아키텍처 필요성을 해결하며, 단일 심도 네트워크에서 스펙트럼 불변성과 다중 스펙트럼 융합 심도 추정을 동시에 달성하여 신뢰성, 메모리 효율성, 유연성을 모두 유지합니다.