# Multimodal Cultural Heritage Knowledge Graph Extension with Language and Vision Models

### 저자

Yang Zhang, Nada Mimouni, Jean-Claude Moissinac, Fay\c{c}al Hamdi

### 💡 개요

본 논문은 텍스트와 이미지 정보를 통합하는 다중 모달리티 문화유산 지식 그래프(KG)인 WJoconde를 제안하며, 프랑스 문화유산 데이터를 중심으로 구축되었습니다. 제안된 프레임워크는 LLM과 VLM을 활용하여 비정형 데이터를 자동으로 추출하고 검증함으로써 KG를 확장하며, 높은 신뢰도로 KG를 효율적으로 강화함을 입증했습니다. 연구팀은 관련 코드, 벤치마크 데이터셋, 원본 데이터 모두를 공개했습니다.

### 🔑 시사점 및 한계

- 문화유산 분야의 다중 모달리티 지식 그래프 구축 및 확장의 필요성을 제시하고 실질적인 방법론을 제공합니다.

- LLM과 VLM을 활용하여 비정형 문화유산 데이터를 효율적으로 추출하고 검증하는 자동화된 프레임워크를 통해 KG 확장성을 높입니다.

- 텍스트와 이미지 정보를 통합함으로써 문화유산 KG의 정확성과 풍부함을 향상시킬 수 있습니다.

- 제안된 방법론의 일반화 가능성과 다른 문화권의 문화유산 데이터에 대한 적용 및 성능 검증이 향후 과제로 남습니다.

---

[PDF 보기](https://arxiv.org/pdf/2605.17669)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).