Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

RAG iterativo multimodal para la respuesta visual a preguntas de conocimiento

Created by
  • Haebom

Autor

Changin Choi, Wonseok Lee, Jungmin Ko, Wonjong Rhee

Describir

Este artículo propone un marco de generación aumentada de recuperación iterativa multimodal (MI-RAG) para abordar las limitaciones de rendimiento de los modelos lingüísticos multimodales a gran escala (MLLM) para preguntas visuales intensivas en conocimiento que requieren conocimiento externo. MI-RAG aprovecha las inferencias para mejorar la recuperación y las actualiza en múltiples modalidades con base en el conocimiento recién descubierto. En cada iteración, genera dinámicamente múltiples consultas utilizando el historial de inferencia acumulado, realizando búsquedas conjuntas en bases de conocimiento heterogéneas que incluyen tanto conocimiento visual como textual. El conocimiento recién adquirido se integra en el historial de inferencia para mejorar iterativamente la comprensión. En puntos de referencia como Encyclopedic VQA, InfoSeek y OK-VQA, MI-RAG mejora significativamente la recuperación y la precisión de las respuestas, presentando un enfoque escalable para la inferencia constructiva en VQA intensivo en conocimiento.

Takeaways, Limitations

Takeaways:
Contribuir a mejorar el rendimiento de las respuestas visuales a preguntas intensivas en conocimiento en modelos de lenguaje multimodales a gran escala.
La integración del conocimiento a través de la búsqueda iterativa y la inferencia permite obtener respuestas más precisas y completas.
Presentamos un marco extensible que aprovecha eficazmente el conocimiento de diversas modalidades.
Mejoras de rendimiento verificadas experimentalmente en puntos de referencia como Encyclopedic VQA, InfoSeek y OK-VQA.
Limitations:
Falta de análisis del coste computacional y del tiempo de procesamiento del marco MI-RAG propuesto.
Es necesario evaluar el rendimiento de la generalización para varios tipos de bases de conocimiento.
Se necesita más investigación sobre la posibilidad de propagación de errores y formas de garantizar la transparencia en el proceso de inferencia.
Existe la posibilidad de que haya sesgo hacia ciertos tipos de bases de conocimiento.
👍