Cet article examine systématiquement l'impact de l'intégration de modèles de langage à grande échelle (MLL) à la vision par ordinateur sur des tâches perceptuelles telles que la segmentation d'images. En nous concentrant spécifiquement sur les systèmes de transport intelligents (STI), nous présentons les applications, les défis et les orientations futures de la segmentation d'images basée sur les MLL dans les STI, où une compréhension précise des scènes est cruciale pour la sécurité et l'efficacité. Nous classons différentes approches de segmentation d'images basées sur les MLL en fonction de leurs mécanismes d'incitation et de leurs architectures principales, et mettons en évidence les innovations qui améliorent la compréhension des scènes routières pour la conduite autonome, la surveillance du trafic et la maintenance des infrastructures. Enfin, nous identifions les principaux défis tels que la performance en temps réel et la fiabilité critique pour la sécurité, et présentons une perspective sur l'IA explicable et centrée sur l'humain, essentielle au déploiement réussi de cette technologie dans les systèmes de transport de nouvelle génération.