本論文は,視覚概念と意味概念の階層構造を効果的に学習するために,双曲空間におけるマスクイメージモデリング(MIM)と知識蒸留技術を統合した新しい方法であるHMID-Netを提案する。従来のMERUモデルが双曲空間へのマルチモーダル学習をうまく適用したのに比べて、HMID-NetはMIMと知識蒸留を活用してより効率的なモデル学習を可能にします。特に、双曲空間に特化した知識蒸留損失関数を導入し、効果的な知識伝達を支援します。実験の結果、HMID-Netは、画像分類および検索操作において、MERUやCLIPなどの既存のモデルを大幅に上回る性能を示した。