Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ArtRAG: Generación aumentada por recuperación con contexto estructurado para la comprensión de las artes visuales

Created by
  • Haebom

Autor

Shuai Wang, Ivona Najdenkoska, Hongyi Zhu, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring

Describir

Este artículo propone ArtRAG, un nuevo marco para comprender el arte desde diversas perspectivas (cultural, histórica y estilística). Para superar las limitaciones de los modelos de lenguaje multimodales a gran escala (MLLM) existentes, que no captan adecuadamente los matices de la interpretación artística, ArtRAG utiliza un Grafo de Conocimiento Contextual del Arte (ACKG) generado automáticamente a partir de fuentes textuales específicas del dominio. El ACKG organiza entidades como artistas, movimientos, temas y eventos históricos en un grafo interpretable. Un buscador estructurado multigrano selecciona subgrafos relevantes y guía la generación del MLLM. Los resultados experimentales con los conjuntos de datos de SemArt y Artpedia demuestran que ArtRAG supera a los modelos existentes, y las evaluaciones humanas demuestran que genera interpretaciones consistentes, profundas y culturalmente ricas.

Takeaways, Limitations

Takeaways:
Permite la interpretación de obras de arte desde diversas perspectivas mediante el uso de gráficos de conocimiento específicos del dominio.
Superar las limitaciones del MLLM existente y generar descripciones de obras de arte más ricas y precisas.
Presentamos un enfoque novedoso que combina gráficos de conocimiento y RAG sin entrenamiento.
Rendimiento superior validado en comparación con los modelos existentes en los conjuntos de datos SemArt y Artpedia.
Limitations:
El rendimiento puede verse afectado por la calidad y cantidad de fuentes de texto específicas del dominio utilizadas para generar ACKG.
La capacidad de generar descripciones de obras de un movimiento o estilo artístico en particular puede depender de los sesgos del conjunto de datos.
La limitación puede ser que se basa en información de texto en lugar de utilizar directamente la información visual en sí.
La subjetividad de las evaluaciones humanas puede influir en los resultados.
👍