Bài báo này đề xuất ArtRAG, một khuôn khổ mới để hiểu nghệ thuật từ nhiều góc nhìn khác nhau (văn hóa, lịch sử và phong cách). Để khắc phục những hạn chế của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) hiện có, vốn không nắm bắt đầy đủ các sắc thái của diễn giải nghệ thuật, ArtRAG sử dụng Đồ thị Kiến thức Bối cảnh Nghệ thuật (ACKG) được tạo tự động từ các nguồn văn bản chuyên biệt. ACKG sắp xếp các thực thể như nghệ sĩ, phong trào, chủ đề và sự kiện lịch sử thành một đồ thị có thể diễn giải. Một trình tìm kiếm có cấu trúc đa hạt sẽ chọn các đồ thị con liên quan và hướng dẫn việc tạo MLLM. Kết quả thử nghiệm trên các tập dữ liệu SemArt và Artpedia chứng minh rằng ArtRAG vượt trội hơn các mô hình hiện có, và các đánh giá của con người cho thấy nó tạo ra những diễn giải nhất quán, sâu sắc và giàu tính văn hóa.