본 논문은 시각 및 의미 개념의 계층적 구조를 효과적으로 학습하기 위해 쌍곡 공간에서 마스크 이미지 모델링(MIM)과 지식 증류 기법을 통합한 새로운 방법인 HMID-Net을 제안합니다. 기존의 MERU 모델이 쌍곡 공간으로의 다중 모달 학습을 성공적으로 적용한 것에 비해, HMID-Net은 MIM과 지식 증류를 활용하여 더욱 효율적인 모델 학습을 가능하게 합니다. 특히, 쌍곡 공간에 특화된 지식 증류 손실 함수를 도입하여 효과적인 지식 전달을 지원합니다. 실험 결과, HMID-Net은 이미지 분류 및 검색 작업에서 MERU 및 CLIP과 같은 기존 모델들을 상당히 능가하는 성능을 보였습니다.