Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ArtRAG : Génération augmentée par récupération avec contexte structuré pour la compréhension des arts visuels

Created by
  • Haebom

Auteur

Shuai Wang, Ivona Najdenkoska, Hongyi Zhu, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring

Contour

Cet article propose ArtRAG, un nouveau cadre pour comprendre l'art sous différents angles (culturel, historique et stylistique). Pour surmonter les limites des modèles linguistiques multimodaux à grande échelle (MLLM) existants, qui ne parviennent pas à saisir correctement les nuances de l'interprétation artistique, ArtRAG utilise un graphe de connaissances contextuelles artistiques (ACKG) généré automatiquement à partir de sources textuelles spécifiques au domaine. L'ACKG organise des entités telles que les artistes, les mouvements, les sujets et les événements historiques dans un graphe interprétable. Un moteur de recherche structuré multi-grains sélectionne les sous-graphes pertinents et guide la génération du MLLM. Les résultats expérimentaux sur les bases de données SemArt et Artpedia démontrent qu'ArtRAG surpasse les modèles existants, et les évaluations humaines démontrent qu'il génère des interprétations cohérentes, pertinentes et culturellement riches.

Takeaways, Limitations

Takeaways:
Permet l'interprétation d'œuvres d'art sous différents angles en utilisant des graphiques de connaissances spécifiques au domaine.
Surmonter les limites du MLLM existant et générer des descriptions d'œuvres d'art plus riches et plus précises.
Nous présentons une nouvelle approche combinant des graphes de connaissances et RAG sans formation.
Performances supérieures validées par rapport aux modèles existants sur les ensembles de données SemArt et Artpedia.
Limitations:
Les performances peuvent être affectées par la qualité et la quantité des sources de texte spécifiques au domaine utilisées pour générer ACKG.
La capacité à générer des descriptions d’œuvres d’un mouvement ou d’un style artistique particulier peut dépendre des biais de l’ensemble de données.
La limitation peut être qu’il s’appuie sur des informations textuelles plutôt que d’utiliser directement les informations visuelles elles-mêmes.
La subjectivité des évaluations humaines peut influencer les résultats.
👍