본 논문은 미술 작품 이해를 위해 단순한 객체 인식을 넘어 문화적, 역사적, 스타일적 다양한 관점을 고려하는 이유를 설명합니다. 기존의 다중 모달 대규모 언어 모델(MLLM)이 일반적인 이미지 캡션 생성에는 뛰어나지만, 미술 작품 해석의 뉘앙스를 포착하는 데는 어려움을 겪는다는 점을 지적합니다. 이에 연구진은 구조화된 지식과 검색 증강 생성(RAG)을 결합한 새로운 학습이 필요 없는 프레임워크인 ArtRAG를 제안합니다. ArtRAG는 도메인 특정 텍스트 소스로부터 자동으로 미술 맥락 지식 그래프(ACKG)를 구성하여 예술가, 운동, 주제, 역사적 사건 등의 엔티티를 풍부하고 해석 가능한 그래프로 구성합니다. 추론 시, 다중 입자 구조화된 검색기가 의미론적 및 위상적으로 관련된 하위 그래프를 선택하여 생성을 안내합니다. 이를 통해 MLLM은 맥락에 기반하고 문화적으로 풍부한 미술 설명을 생성할 수 있습니다. SemArt 및 Artpedia 데이터셋 실험 결과, ArtRAG는 여러 강력한 기준 모델보다 성능이 우수하며, 사람 평가를 통해 일관성 있고 통찰력 있으며 문화적으로 풍부한 해석을 생성하는 것으로 확인되었습니다.