감독 학습에서 전통적인 이미지 마스킹은 (i) 버려진 픽셀의 활용 부족으로 귀중한 컨텍스트 정보 손실, (ii) 세밀한 작업에서 작은 특징이나 중요한 특징 제거와 같은 두 가지 주요 문제에 직면합니다. Masked image modeling (MIM)은 마스크된 영역이 부분적인 입력에서 재구성될 수 있음을 보여주며, 이는 불완전한 데이터조차도 원래 이미지와 강력한 컨텍스트 일관성을 나타낼 수 있음을 보여줍니다. 이에 착안하여, 마스크된 내용을 무시하는 대신 보조 지식으로 취급하는 MaskAnyNet을 제안합니다. MaskAnyNet은 마스크된 영역의 의미적 다양성을 활용하여 특징을 풍부하게 하고 세밀한 디테일을 보존합니다. CNN 및 Transformer 백본에 대한 실험 결과 여러 벤치마크에서 일관된 성능 향상을 보였습니다.