Bài báo này đề cập đến vấn đề các mô hình nguồn mở hiện có khả năng tương tác nhiều vòng yếu, đặc biệt là trong các ngữ cảnh dài, mặc dù chúng có khả năng xử lý zero-shot và khả năng hiểu hình ảnh mạnh mẽ. Để giải quyết những vấn đề này, chúng tôi đề xuất một mô-đun mô hình hóa ngữ cảnh có tên là ContextQFormer, giúp cải thiện khả năng biểu diễn thông tin ngữ cảnh, đồng thời công bố việc xây dựng và phát hành một bộ dữ liệu mới, TMDialog, dành cho nghiên cứu đối thoại đa phương thức nhiều vòng. TMDialog hỗ trợ nghiên cứu đối thoại đa phương thức nhiều vòng, bao gồm các cuộc hội thoại dài hơn so với các bộ dữ liệu hiện có. Trong các thử nghiệm sử dụng TMDialog, ContextQFormer cho thấy hiệu suất tốt hơn 2-4% so với các mô hình hiện có.