[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

ContextQFormer: Un nuevo método de modelado de contexto para conversaciones multimodales de múltiples turnos

Created by
  • Haebom

Autor

Yiming Lei, Zhizheng Yang, Zeming Liu, Haitao Leng, Shaoguo Liu, Tingting Gao, Qingjie Liu, Yunhong Wang

Describir

Este artículo aborda la cuestión de que los modelos de código abierto existentes presentan capacidades de interacción multi-turno deficientes, especialmente en contextos largos, a pesar de sus capacidades de cero disparos y su potente capacidad de comprensión de imágenes. Para abordar estos problemas, proponemos un módulo de modelado de contexto llamado ContextQFormer que mejora la representación de la información contextual y anunciamos la creación y el lanzamiento de un nuevo conjunto de datos, TMDialog, para la investigación de diálogos multimodales multi-turno. TMDialog facilita la investigación de diálogos multimodales multi-turno, incluyendo conversaciones más largas que los conjuntos de datos existentes. En experimentos con TMDialog, ContextQFormer muestra un rendimiento entre un 2 % y un 4 % superior al de los modelos existentes.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo módulo de modelado de contexto (ContextQFormer) para contribuir a mejorar el rendimiento de los modelos de conversación multimodal de múltiples turnos con contextos largos.
Esperamos estimular la investigación futura a través del lanzamiento de un nuevo conjunto de datos a gran escala (TMDialog) para la investigación del diálogo multimodal en múltiples tiempos.
ContextQFormer muestra una mejora del rendimiento con respecto a los modelos existentes (2%-4%)
Limitations:
Falta de información detallada sobre la composición y el tamaño específicos del conjunto de datos de TMDialog y la calidad de los datos.
Las mejoras de rendimiento de ContextQFormer pueden ser relativamente pequeñas, del 2 al 4 %.
La falta de análisis comparativo con otros modelos de conversación multimodal requiere una mayor verificación de la generalización.
👍