Este artículo propone ArtRAG, un nuevo marco para comprender el arte desde diversas perspectivas (cultural, histórica y estilística). Para superar las limitaciones de los modelos de lenguaje multimodales a gran escala (MLLM) existentes, que no captan adecuadamente los matices de la interpretación artística, ArtRAG utiliza un Grafo de Conocimiento Contextual del Arte (ACKG) generado automáticamente a partir de fuentes textuales específicas del dominio. El ACKG organiza entidades como artistas, movimientos, temas y eventos históricos en un grafo interpretable. Un buscador estructurado multigrano selecciona subgrafos relevantes y guía la generación del MLLM. Los resultados experimentales con los conjuntos de datos de SemArt y Artpedia demuestran que ArtRAG supera a los modelos existentes, y las evaluaciones humanas demuestran que genera interpretaciones consistentes, profundas y culturalmente ricas.