Este artículo aborda la cuestión de que los modelos de código abierto existentes presentan capacidades de interacción multi-turno deficientes, especialmente en contextos largos, a pesar de sus capacidades de cero disparos y su potente capacidad de comprensión de imágenes. Para abordar estos problemas, proponemos un módulo de modelado de contexto llamado ContextQFormer que mejora la representación de la información contextual y anunciamos la creación y el lanzamiento de un nuevo conjunto de datos, TMDialog, para la investigación de diálogos multimodales multi-turno. TMDialog facilita la investigación de diálogos multimodales multi-turno, incluyendo conversaciones más largas que los conjuntos de datos existentes. En experimentos con TMDialog, ContextQFormer muestra un rendimiento entre un 2 % y un 4 % superior al de los modelos existentes.