Este artículo examina sistemáticamente el impacto de la integración de modelos de lenguaje a gran escala (LLM) con visión artificial en tareas perceptivas como la segmentación de imágenes. Centrándonos específicamente en los Sistemas Inteligentes de Transporte (ITS), presentamos las aplicaciones, los desafíos y las futuras direcciones de la segmentación de imágenes basada en LLM en ITS, donde la comprensión precisa de la escena es crucial para la seguridad y la eficiencia. Clasificamos diversos enfoques de segmentación de imágenes basados en LLM según sus mecanismos de activación y arquitecturas centrales, y destacamos las innovaciones que mejoran la comprensión de la escena vial para la conducción autónoma, la vigilancia del tráfico y el mantenimiento de infraestructuras. Finalmente, identificamos desafíos clave como el rendimiento en tiempo real y la fiabilidad crítica para la seguridad, y presentamos una perspectiva sobre la IA explicable y centrada en el ser humano, esencial para el despliegue exitoso de esta tecnología en los sistemas de transporte de próxima generación.