Trong bài báo này, chúng tôi đề xuất một khuôn khổ suy luận đa cấp liên miền (CdMT) để cải thiện hiệu suất nhận dạng biển báo giao thông (TSR) chi tiết không cần chỉnh sửa (zero-shot) trong môi trường hoang dã. Các phương pháp hiện có gặp khó khăn đặc biệt trong các tình huống TSR xuyên quốc gia do sự khác biệt về biển báo giao thông giữa các quốc gia, và CdMT tận dụng khả năng suy luận đa cấp của các mô hình đa phương thức quy mô lớn (LMM) để giải quyết thách thức này. Chúng tôi thiết kế một quy trình suy luận đa cấp cho LMM bằng cách đưa vào ngữ cảnh, đặc điểm và các giải thích phân biệt. Các giải thích ngữ cảnh nâng cao, thông qua tối ưu hóa dấu nhắc trọng tâm, cho phép định vị chính xác các biển báo trong hình ảnh đường phức tạp và lọc ra các phản hồi không liên quan. Các giải thích đặc điểm bắt nguồn từ việc học ngữ cảnh với các biển báo giao thông mẫu thu hẹp khoảng cách giữa các miền và cải thiện TSR chi tiết, trong khi các giải thích phân biệt nâng cao khả năng suy luận đa phương thức của LMM bằng cách phân biệt những khác biệt nhỏ giữa các biển báo tương tự. CdMT độc lập với dữ liệu đào tạo và chỉ yêu cầu các hướng dẫn đơn giản và thống nhất để đạt được TSR xuyên quốc gia. Thông qua các thử nghiệm mở rộng trên ba tập dữ liệu chuẩn và hai tập dữ liệu thực tế, chúng tôi chứng minh rằng khuôn khổ CdMT được đề xuất vượt trội hơn các phương pháp tiên tiến nhất trên cả năm tập dữ liệu. (GTSRB 0,93, BTSD 0,89, TT-100K 0,97, Sapporo 0,89, Yokohama 0,85)