Bài báo này tập trung vào việc cải thiện khả năng ngữ cảnh đa phương thức trong học tập (MICL) của các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM). Chúng tôi nhận thấy rằng các MLLM hiện tại gặp khó khăn trong việc tận dụng thông tin trực quan và phụ thuộc quá nhiều vào các mẫu văn bản, dẫn đến việc chỉ mô phỏng văn bản thay vì thích ứng đa phương thức thực sự. Để giải quyết những vấn đề này, chúng tôi đề xuất Phân bổ lại Sự chú ý Động (DARA), một chiến lược tinh chỉnh hiệu quả giúp cân bằng lại sự chú ý giữa các mã thông báo trực quan và văn bản để hướng sự chú ý của mô hình vào ngữ cảnh trực quan. Hơn nữa, chúng tôi đề xuất TrueMICL, một tập dữ liệu dành riêng cho MICL, yêu cầu rõ ràng việc tích hợp thông tin đa phương thức, đặc biệt là nội dung trực quan, để hoàn thành nhiệm vụ một cách chính xác. Kết quả thực nghiệm chứng minh rằng phương pháp được đề xuất cải thiện đáng kể khả năng ngữ cảnh đa phương thức trong học tập thực sự.