Cet article aborde le problème des faibles capacités d'interaction multi-tours des modèles open source existants, notamment dans les contextes longs, malgré leurs capacités de « zero-shot » et leurs puissantes capacités de compréhension d'images. Pour résoudre ces problèmes, nous proposons un module de modélisation contextuelle appelé ContextQFormer qui améliore la représentation des informations contextuelles, et annonçons la construction et la publication d'un nouvel ensemble de données, TMDialog, pour la recherche sur les dialogues multimodaux multi-tours. TMDialog prend en charge la recherche sur les dialogues multimodaux multi-tours, y compris les conversations plus longues que les ensembles de données existants. Lors d'expériences utilisant TMDialog, ContextQFormer affiche des performances 2 à 4 % supérieures à celles des modèles existants.