본 논문은 이미지와 텍스트의 계층적 특성을 활용하여 초고성능 비전-언어 모델을 제시합니다. 기존의 이미지-텍스트 쌍을 단순히 비교하는 방식에서 벗어나, 이미지를 여러 개의 객체 박스로 분할하고 각 박스에 대한 텍스트 설명을 활용하여 계층적 표현 학습을 수행합니다. 이는 문장에서 명사를 추출하고 공개된 지역화 기반 모델을 이용하여 구현됩니다. 쌍곡 공간을 활용하여 이미지, 객체 박스, 텍스트 설명 간의 계층적 관계를 대조 학습 및 함축 학습 목표를 통해 학습합니다. 실험 결과, 제안된 방법은 기존 유클리드 CLIP 학습 및 다른 쌍곡 비전-언어 모델들을 능가하는 제로샷 및 검색 성능 향상과 더욱 강력한 계층적 성능을 보여줍니다.