Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Estructuración y recuperación de conocimiento de grano fino para la respuesta visual a preguntas

Created by
  • Haebom

Autor

Zhengxuan Zhang, Yin Wu, Yuyu Luo, Nan Tang

Describir

En este artículo, proponemos un enfoque KB-VQA basado en la generación de aumento de recuperación (RAG) que utiliza bases de conocimiento (KB) externas para abordar el problema de que los modelos de lenguaje grande multimodal (MLLM) de vanguardia tienen dificultades para acceder a conocimiento específico del dominio o actualizado en tareas de respuesta visual a preguntas (VQA). Para abordar el problema de la pérdida de información de imagen en las técnicas de recuperación unimodal existentes, proponemos un marco de generación de aumento de recuperación de unidades de conocimiento (KU-RAG) que construye estructuralmente unidades de conocimiento de grano fino compuestas por diversas formas de fragmentos de datos multimodales, como fragmentos de texto e imágenes de objetos, y las integra con MLLM. KU-RAG garantiza la recuperación precisa del conocimiento relevante y mejora la capacidad de inferencia mediante cadenas de modificación del conocimiento. Los resultados experimentales muestran que el método propuesto supera a los métodos KB-VQA existentes en un promedio del 3% y hasta un 11% en cuatro puntos de referencia.

Takeaways, Limitations

Takeaways:
Presentación de un método eficaz de búsqueda y utilización de conocimientos mediante la organización estructural y la gestión de unidades de conocimiento detalladas.
Mejora del rendimiento de VQA y fortalecimiento de la capacidad de inferencia de MLLM a través del marco KU-RAG
Verificación de la superioridad del rendimiento sobre los métodos existentes en varios puntos de referencia
Limitations:
Se necesita más investigación sobre la escalabilidad y el rendimiento de generalización del marco propuesto.
Posible degradación del rendimiento de generalización debido al uso de una base de conocimiento sesgada hacia un dominio específico.
Problemas con la creciente complejidad y el coste computacional de las cadenas de modificación del conocimiento
👍