Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Comprensión multimodal consciente del contexto a nivel de región

Created by
  • Haebom

Autor

Hongliang Wei, Xianqi Zhang, Xingtao Wang, Xiaopeng Fan, Debin Zhao

Describir

Este artículo señala que la investigación existente sobre modelos de lenguaje multimodal a gran escala (MLLM) se ha centrado exclusivamente en la comprensión visual general y ha pasado por alto la capacidad de integrar información textual relacionada con los objetos para realizar una comprensión multimodal consciente del contexto (comprensión multimodal consciente del contexto a nivel de dominio, RCMU). Para abordar esto, definimos una tarea RCMU que requiere la integración de contenido de imagen e información textual de una región u objeto para responder a los comandos del usuario. Proponemos un método de coordinación de guía visual consciente del contexto a nivel de dominio (RCVIT) que integra información del objeto en la entrada del modelo, permitiendo que las coordenadas del cuadro delimitador conecten eficazmente el contenido visual y textual del objeto. Además, presentamos el conjunto de datos RCMU, un conjunto de datos de coordinación de guía visual a gran escala que cubre varias tareas RCMU, y proponemos RC&P-Bench, un punto de referencia integral para evaluar el rendimiento de los MLLM en RCMU y tareas de comprensión multimodal personalizada. También proponemos métricas de evaluación sin referencia para la evaluación completa y granular de explicaciones de imágenes conscientes del contexto a nivel de dominio. Finalmente, desarrollamos el modelo RC-Qwen2-VL aplicándolo a los conjuntos de datos RCVIT y RCMU. Los resultados experimentales demuestran que el modelo alcanza un excelente rendimiento en múltiples tareas de RCMU y presenta aplicaciones exitosas en RAG multimodal y conversaciones personalizadas. Los datos, el modelo y los puntos de referencia están disponibles en https://github.com/hongliang-wei/RC-MLLM .

Takeaways, Limitations

Takeaways:
Presentamos un nuevo desafío llamado RCMU, que integra información visual y textual de los objetos, y proponemos la metodología RCVIT para resolver este problema.
Proporcionamos el conjunto de datos RCMU, un conjunto de datos a gran escala para las tareas de RCMU, y RC&P-Bench, un punto de referencia para la evaluación del desempeño.
Mejoramos la evaluación de las descripciones de imágenes sensibles al contexto a nivel de dominio al proponer una métrica de evaluación sin referencias.
El modelo RC-Qwen2-VL ha demostrado un excelente desempeño en tareas RCMU y aplicaciones multimodales.
Limitations:
Tal vez sea necesario realizar una revisión más profunda respecto del tamaño y la diversidad del conjunto de datos de RCMU.
Es posible que se necesiten más experimentos para evaluar el rendimiento de generalización de la metodología RCVIT propuesta.
Es posible que haya una falta de discusión de Limitations para métricas de evaluación sin referencia.
Sólo se presentan resultados para un modelo específico (Qwen2-VL), por lo que se necesita más investigación para determinar la generalización a otros modelos.
👍