En este artículo, proponemos HMID-Net, un novedoso método que integra el modelado de imágenes de máscara (MIM) y la destilación de conocimiento para aprender eficazmente la estructura jerárquica de conceptos visuales y semánticos en el espacio hiperbólico. En comparación con el modelo MERU existente, que aplicaba con éxito el aprendizaje multimodal al espacio hiperbólico, HMID-Net permite un aprendizaje de modelos más eficiente mediante el uso de MIM y la destilación de conocimiento. En particular, introduce una función de pérdida de destilación de conocimiento especializada en el espacio hiperbólico para facilitar la transferencia de conocimiento eficaz. Los resultados experimentales muestran que HMID-Net supera significativamente a modelos existentes como MERU y CLIP en tareas de clasificación y recuperación de imágenes.