Cet article propose ArtRAG, un nouveau cadre pour comprendre l'art sous différents angles (culturel, historique et stylistique). Pour surmonter les limites des modèles linguistiques multimodaux à grande échelle (MLLM) existants, qui ne parviennent pas à saisir correctement les nuances de l'interprétation artistique, ArtRAG utilise un graphe de connaissances contextuelles artistiques (ACKG) généré automatiquement à partir de sources textuelles spécifiques au domaine. L'ACKG organise des entités telles que les artistes, les mouvements, les sujets et les événements historiques dans un graphe interprétable. Un moteur de recherche structuré multi-grains sélectionne les sous-graphes pertinents et guide la génération du MLLM. Les résultats expérimentaux sur les bases de données SemArt et Artpedia démontrent qu'ArtRAG surpasse les modèles existants, et les évaluations humaines démontrent qu'il génère des interprétations cohérentes, pertinentes et culturellement riches.