Bài báo này trình bày một khuôn khổ nhận dạng thực phẩm đa phương thức mới, kết hợp các phương thức trực quan và văn bản để cải thiện độ chính xác và độ tin cậy của nhận dạng thực phẩm. Phương pháp đề xuất sử dụng chiến lược hợp nhất đa phương thức động, tích hợp một cách thích ứng các đặc điểm từ dữ liệu trực quan đơn phương thức và siêu dữ liệu văn bản bổ sung. Cơ chế hợp nhất này được thiết kế để tối đa hóa việc sử dụng nội dung thông tin đồng thời giảm thiểu tác động tiêu cực của dữ liệu phương thức bị thiếu hoặc không nhất quán. Đánh giá nghiêm ngặt trên tập dữ liệu UPMC Food-101 cho thấy độ chính xác phân loại đơn phương thức là 73,60% đối với hình ảnh và 88,84% đối với văn bản. Khi hợp nhất trên cả hai phương thức, mô hình đạt độ chính xác 97,84%, vượt trội hơn một số phương pháp tiên tiến. Phân tích thử nghiệm mở rộng chứng minh tính tin cậy, khả năng thích ứng và hiệu quả tính toán của thiết lập được đề xuất, làm nổi bật khả năng ứng dụng thực tế của nó cho các tình huống nhận dạng thực phẩm đa phương thức trong thế giới thực.