Bài báo này đề cập đến thách thức trong việc phát hiện ngôn từ kích động thù địch bằng tiếng Trung, vốn đang bị thách thức bởi sự phổ biến ngày càng tăng của các kỹ thuật ngụy trang trên mạng xã hội Trung Quốc. Việc sử dụng rộng rãi các kỹ thuật ngụy trang để vượt qua các hệ thống phát hiện dựa trên văn bản hiện có càng làm trầm trọng thêm thách thức này. Để giải quyết vấn đề này, bài báo đề xuất MMBERT, một khuôn khổ đa phương thức mới dựa trên BERT, tích hợp các phương thức văn bản, lời nói và hình ảnh thông qua kiến trúc Hỗn hợp Chuyên gia (MoE). Để giải quyết sự bất ổn liên quan đến việc tích hợp trực tiếp MoE vào các mô hình dựa trên BERT, bài báo này phát triển một mô hình đào tạo tiến bộ ba giai đoạn. MMBERT tăng cường khả năng chống lại các nhiễu loạn đối kháng bằng cách kết hợp các chuyên gia cụ thể theo từng phương thức, cơ chế tự chú ý chung và chiến lược phân công chuyên gia dựa trên bộ định tuyến. Kết quả thử nghiệm trên nhiều tập dữ liệu ngôn từ kích động thù địch của Trung Quốc chứng minh rằng MMBERT vượt trội đáng kể so với mô hình mã hóa dựa trên BERT được tinh chỉnh, các LLM được tinh chỉnh và các LLM sử dụng phương pháp học dựa trên ngữ cảnh.