본 논문은 Vision-Language Pretraining (VLP)의 성공적인 성과에도 불구하고, 기존 방법들이 이미지-텍스트 쌍을 독립적인 훈련 예시로 취급하여 관계적 구조를 간과한다는 점에 주목합니다. 특히 전자상거래 제품 공동 구매 그래프나 소셜 추천 네트워크와 같은 도메인에서 나타나는 풍부한 관계성을 활용하고자 합니다. 인간이 지식을 관계적 인지 지도로 인코딩한다는 신경과학적 증거에 영감을 받아, 본 논문은 Structure-aware Language-Image Pretraining (SLIP)를 제안합니다. SLIP는 구조적 대조 손실을 통합하여 modality를 정렬하는 동시에 구조화된 그래프 내에서 인접한 엔티티 간의 관계를 모델링합니다. 이를 위해, 대규모 Amazon 제품 공동 구매 멀티모달 그래프 데이터셋을 구축하여 대규모의 구조화된 cross-modality supervision을 가능하게 합니다. 실험 결과는 SLIP가 cross-modal retrieval 및 classification task에서 zero-shot 및 few-shot 설정 모두에서 CLIP을 일관되게 능가하며, cross-modal alignment에 대한 관계적 supervision의 가치를 보여줍니다.