Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

NLKI: Un marco ligero de integración de conocimiento del lenguaje natural para mejorar pequeños VLM en tareas de VQA de sentido común

Created by
  • Haebom

Autor

Aritra Dutta, Swapnanil Mukherjee, Deepanway Ghosal, Somak Aditya

Describir

Este artículo presenta un marco integral (NLKI) para mejorar el rendimiento de modelos visuales de lenguaje a pequeña escala (sVLM) en la resolución de preguntas visuales de sentido común (VQA). NLKI funciona recuperando datos en lenguaje natural, generando explicaciones en lenguaje natural mediante un LLM y alimentando estas señales al sVLM. Aprovechando ColBERTv2 y las indicaciones ricas en entidades para la recuperación de datos, las explicaciones generadas reducen las alucinaciones y mejoran la precisión hasta en un 7 %. Además, mediante un ajuste adicional mediante una función de pérdida robusta al ruido, logramos una mejora de la precisión del 2,5 % en el conjunto de datos CRIC y del 5,5 % en el conjunto de datos AOKVQA, lo que eleva el rendimiento de sVLM como FLAVA al nivel de VLM de tamaño medio como Qwen-2 VL-2B y SmolVLM-2.5B. Este estudio demuestra que el conocimiento de sentido común basado en LLM es más efectivo que la recuperación de la base de conocimiento de sentido común, que el aprendizaje consciente del ruido mejora la estabilidad de los modelos pequeños en situaciones de aumento de conocimiento externo y que la inferencia de sentido común eficiente en cuanto a parámetros es posible incluso en modelos de 250 millones de parámetros.

Takeaways, Limitations

Takeaways:
Presentamos la posibilidad de mejorar el rendimiento de VQA de sentido común de pequeños modelos de lenguaje visual a través de la integración de conocimiento de sentido común basada en LLM.
Demostramos que el ajuste fino utilizando una función de pérdida robusta al ruido es eficaz para mejorar el rendimiento de modelos pequeños.
Demostramos que la inferencia de sentido común eficiente en términos de parámetros es posible incluso en modelos con 250 millones de parámetros.
Sugerimos que integrar el conocimiento de sentido común utilizando LLM puede ser más efectivo que buscar bases de conocimiento de sentido común.
Limitations:
Hay un problema de ruido de etiqueta en el conjunto de datos utilizado, que requiere un análisis más detallado.
Se requiere una verificación adicional del rendimiento de generalización del método propuesto.
Se necesitan experimentos en varios tipos de sVLM y se analizan las diferencias de rendimiento según las características del modelo.
👍