En este artículo, proponemos un marco de razonamiento multinivel interdominio (CdMT) para mejorar el rendimiento del reconocimiento de señales de tráfico (TSR) de grano fino y sin disparos en entornos naturales. Los métodos existentes presentan dificultades, especialmente en escenarios de TSR intercontinentales debido a las diferencias en las señales de tráfico entre países, y CdMT aprovecha la capacidad de razonamiento multinivel de los modelos multimodales (LMM) a gran escala para abordar este desafío. Diseñamos un proceso de razonamiento multinivel para LMM mediante la introducción de contexto, características y explicaciones discriminativas. Las explicaciones de contexto mejoradas, mediante la optimización de la indicación del centroide, permiten la localización precisa de señales en imágenes viales complejas y el filtrado de respuestas irrelevantes. Las explicaciones de características derivadas del aprendizaje de contexto con señales de tráfico modelo acortan la brecha entre dominios y mejoran el TSR de grano fino, mientras que las explicaciones discriminativas mejoran la capacidad de razonamiento multimodal de los LMM al distinguir diferencias sutiles entre señales similares. CdMT es independiente de los datos de entrenamiento y solo requiere instrucciones simples y uniformes para lograr el TSR intercontinental. Mediante experimentos exhaustivos con tres conjuntos de datos de referencia y dos conjuntos de datos reales, demostramos que el marco CdMT propuesto supera a los métodos más avanzados en los cinco conjuntos de datos. (GTSRB 0,93, BTSD 0,89, TT-100K 0,97, Sapporo 0,89, Yokohama 0,85)