Cet article présente et publie l'ensemble de données acoustiques des routes urbaines de Suzhou (ensemble de données SZUR-Acoustic) avec un protocole complet de collecte de données et des directives d'annotation pour garantir la transparence et la reproductibilité. Un réseau neuronal convolutif profond (BMCNN) de fusion de caractéristiques bimodales est proposé pour modéliser la corrélation entre le bruit des véhicules et la vitesse de conduite. Lors de la phase de prétraitement, des stratégies de débruitage et de régularisation adaptatives sont appliquées pour supprimer les interférences de fond environnementales. Dans l'architecture du réseau, des branches parallèles extraient les coefficients de Kephstrum Mel-fréquence (MFCC) et les caractéristiques d'énergie des paquets d'ondelettes, qui sont fusionnés via un mécanisme d'attention intermodal dans l'espace des caractéristiques intermédiaires pour exploiter pleinement les informations temps-fréquence. Les résultats expérimentaux montrent que le BMCNN atteint une précision de classification de 87,56 % sur l'ensemble de données SZUR-Acoustic et de 96,28 % sur l'ensemble de données public IDMT-Traffic. Des études de modération et des tests de robustesse sur l'ensemble de données de Suzhou vérifient en outre la contribution de chaque module à l'amélioration des performances et à la réduction du surapprentissage. La méthode de classification de la vitesse basée sur l'acoustique proposée peut être intégrée dans les systèmes de gestion du trafic urbain intelligent pour la surveillance du bruit en temps réel et l'estimation de la vitesse, qui peuvent être utilisés pour optimiser le contrôle du flux de trafic, réduire la pollution sonore en bord de route et soutenir la planification urbaine durable.