Bài báo này khám phá phân đoạn ngữ nghĩa đa phương thức để cải thiện độ chính xác phân đoạn trong các cảnh phức tạp. Các phương pháp hiện có sử dụng các mô-đun hợp nhất đặc trưng được thiết kế riêng cho các phương thức cụ thể, hạn chế tính linh hoạt của đầu vào và tăng số lượng tham số huấn luyện. Để giải quyết vấn đề này, chúng tôi đề xuất StitchFusion, một khuôn khổ hợp nhất mô hình đơn giản nhưng hiệu quả, tích hợp trực tiếp các mô hình được huấn luyện trước quy mô lớn vào bộ mã hóa và hợp nhất đặc trưng. Phương pháp này cho phép hợp nhất đặc trưng đa phương thức và đa tỷ lệ toàn diện, đáp ứng tất cả các đầu vào mô hình trực quan. StitchFusion đạt được tích hợp mô hình bằng cách chia sẻ thông tin thị giác đa phương thức trong quá trình mã hóa. Để tăng cường trao đổi thông tin giữa các mô hình, nó giới thiệu một mô-đun bộ điều hợp đa hướng (MultiAdapter) để cho phép truyền thông tin xuyên mô hình trong quá trình mã hóa. Bằng cách tận dụng MultiAdapter để truyền thông tin đa tỷ lệ giữa các bộ mã hóa được huấn luyện trước, việc tích hợp thông tin thị giác đa phương thức trong quá trình mã hóa đã đạt được. Kết quả thử nghiệm chứng minh rằng mô hình đề xuất đạt được hiệu suất tiên tiến trên bốn tập dữ liệu phân đoạn đa phương thức đồng thời giảm thiểu nhu cầu về các tham số bổ sung. Ngoài ra, việc tích hợp thử nghiệm Mô-đun Hợp nhất Đặc trưng (FFM) hiện có và MultiAdapter chứng minh các tính chất bổ sung của chúng.