Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Alineando la visión con el lenguaje: Construcción de gráficos de conocimiento multimodal sin anotaciones para un razonamiento mejorado en LLM
Created by
Haebom
Autor
Junming Liu, Siyuan Meng, Yanting Gao, Song Mao, Pinlong Cai, Guohang Yan, Yirong Chen, Zilin Bian, Ding Wang, Botian Shi
Describir
En este artículo, proponemos un grafo de conocimiento integrado visual-lingüístico (VaLiK) para abordar los problemas de conocimiento incompleto y artefactos de alucinación en la inferencia multimodal de modelos de lenguaje a gran escala (LLM). VaLiK alinea las características de la imagen con el texto utilizando modelos de lenguaje visual (VLM) preentrenados y los transforma en descripciones que contienen información específica de la imagen. Además, elimina eficazmente el ruido que se produce durante el proceso de alineación de características mediante un mecanismo de verificación de similitud intermodal. Puede construir MMKG utilizando únicamente las descripciones mejoradas, sin pies de foto anotados manualmente. Mejora significativamente la eficiencia de almacenamiento y mantiene asociaciones directas entre entidades e imágenes en comparación con los métodos de construcción de MMKG existentes. Los resultados experimentales en tareas de inferencia multimodal muestran que los LLM que utilizan VaLiK superan a los modelos de vanguardia existentes.
Takeaways, Limitations
•
Takeaways:
◦
Presentamos un método novedoso para construir MMKG de manera eficiente aprovechando VLM previamente entrenados.
◦
Mejora del rendimiento de la inferencia LLM aprovechando la información de la imagen sin anotación manual.
◦
Proporciona una eficiencia de almacenamiento mejorada y una función de vinculación de entidad-imagen en comparación con el MMKG existente.
◦
Lograr resultados que superen el desempeño de los modelos de última generación existentes en tareas de inferencia multimodal.
•
Limitations:
◦
El rendimiento del método propuesto puede depender del rendimiento del VLM utilizado.
◦
Hay espacio para la optimización en los procesos de alineación de características y filtrado de ruido.
◦
Necesidad de evaluar el rendimiento de generalización en varios tipos de datos multimodales.