Cet article présente STER-VLM, un cadre d'analyse du trafic basé sur un modèle de langage visuel (VLM) performant en termes de calcul. STER-VLM aborde le coût de calcul et le manque de compréhension spatio-temporelle détaillée des VLM existants grâce à la décomposition des légendes, qui sépare les informations spatiales et temporelles ; la sélection de la période, qui sélectionne les images optimales ; la compréhension basée sur les références, qui capture le mouvement à granularité fine et le contexte dynamique ; et les techniques d'invite visuelle/textuelle. Les résultats expérimentaux utilisant les ensembles de données WTS et BDD démontrent des améliorations significatives de la richesse sémantique et de l'interprétation des scènes de trafic, démontrant son applicabilité pratique en obtenant un score de 55,655 au AI City Challenge 2025 Track 2.