Bài báo này đề cập đến vấn đề các mô hình ngôn ngữ quy mô lớn đa phương thức (MLLM) gặp khó khăn trong việc phân biệt giữa các tín hiệu liên quan đến nhiệm vụ và không liên quan, dẫn đến lỗi trong các nhiệm vụ như trả lời câu hỏi trực quan (VQA). Chúng tôi định nghĩa hạn chế này là "vấn đề năng lực liên phương thức" và tập trung vào "giao thoa phương thức", một hiện tượng trong đó thông tin nhiễu từ các phương thức không liên quan làm giảm hiệu suất trong các nhiệm vụ dựa trên một phương thức duy nhất, chẳng hạn như phân loại hình ảnh hoặc trả lời câu hỏi văn bản thuần túy. Trong bài báo này, chúng tôi thiết kế một thí nghiệm chẩn đoán nhân quả dựa trên nhiễu động để đo lường định lượng giao thoa phương thức và đề xuất một khuôn khổ mới để tinh chỉnh MLLM bằng cách sử dụng các chiến lược tăng cường dữ liệu và điều chỉnh nhất quán dựa trên nhiễu động, bao gồm nhiễu động heuristic và nhiễu động đối nghịch sử dụng phương pháp hạ dốc gradient chiếu (PGD). Chúng tôi xác nhận tính hiệu quả của phương pháp được đề xuất thông qua các thí nghiệm trên nhiều tập dữ liệu chuẩn (tập trung vào hình ảnh, tập trung vào văn bản và VQA) và nhiều họ mô hình.