Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Este artículo señala que la investigación existente sobre modelos de lenguaje multimodal a gran escala (MLLM) se ha centrado exclusivamente en la comprensión visual general y ha pasado por alto la capacidad de integrar información textual relacionada con los objetos para realizar una comprensión multimodal consciente del contexto (comprensión multimodal consciente del contexto a nivel de dominio, RCMU). Para abordar esto, definimos una tarea RCMU que requiere la integración de contenido de imagen e información textual de una región u objeto para responder a los comandos del usuario. Proponemos un método de coordinación de guía visual consciente del contexto a nivel de dominio (RCVIT) que integra información del objeto en la entrada del modelo, permitiendo que las coordenadas del cuadro delimitador conecten eficazmente el contenido visual y textual del objeto. Además, presentamos el conjunto de datos RCMU, un conjunto de datos de coordinación de guía visual a gran escala que cubre varias tareas RCMU, y proponemos RC&P-Bench, un punto de referencia integral para evaluar el rendimiento de los MLLM en RCMU y tareas de comprensión multimodal personalizada. También proponemos métricas de evaluación sin referencia para la evaluación completa y granular de explicaciones de imágenes conscientes del contexto a nivel de dominio. Finalmente, desarrollamos el modelo RC-Qwen2-VL aplicándolo a los conjuntos de datos RCVIT y RCMU. Los resultados experimentales demuestran que el modelo alcanza un excelente rendimiento en múltiples tareas de RCMU y presenta aplicaciones exitosas en RAG multimodal y conversaciones personalizadas. Los datos, el modelo y los puntos de referencia están disponibles en https://github.com/hongliang-wei/RC-MLLM .
Presentamos un nuevo desafío llamado RCMU, que integra información visual y textual de los objetos, y proponemos la metodología RCVIT para resolver este problema.
◦
Proporcionamos el conjunto de datos RCMU, un conjunto de datos a gran escala para las tareas de RCMU, y RC&P-Bench, un punto de referencia para la evaluación del desempeño.
◦
Mejoramos la evaluación de las descripciones de imágenes sensibles al contexto a nivel de dominio al proponer una métrica de evaluación sin referencias.
◦
El modelo RC-Qwen2-VL ha demostrado un excelente desempeño en tareas RCMU y aplicaciones multimodales.
•
Limitations:
◦
Tal vez sea necesario realizar una revisión más profunda respecto del tamaño y la diversidad del conjunto de datos de RCMU.
◦
Es posible que se necesiten más experimentos para evaluar el rendimiento de generalización de la metodología RCVIT propuesta.
◦
Es posible que haya una falta de discusión de Limitations para métricas de evaluación sin referencia.
◦
Sólo se presentan resultados para un modelo específico (Qwen2-VL), por lo que se necesita más investigación para determinar la generalización a otros modelos.