Bài báo này khảo sát một cách có hệ thống tác động của việc tích hợp các mô hình ngôn ngữ quy mô lớn (LLM) với thị giác máy tính lên các tác vụ nhận thức như phân đoạn hình ảnh. Tập trung cụ thể vào Hệ thống Giao thông Thông minh (ITS), chúng tôi trình bày các ứng dụng, thách thức và định hướng tương lai của phân đoạn hình ảnh dựa trên LLM trong ITS, nơi việc hiểu chính xác bối cảnh là rất quan trọng đối với an toàn và hiệu quả. Chúng tôi phân loại các phương pháp phân đoạn hình ảnh dựa trên LLM khác nhau dựa trên cơ chế nhắc nhở và kiến trúc cốt lõi của chúng, đồng thời nêu bật những đổi mới giúp nâng cao khả năng hiểu bối cảnh đường bộ cho lái xe tự động, giám sát giao thông và bảo trì cơ sở hạ tầng. Cuối cùng, chúng tôi xác định những thách thức chính như hiệu suất thời gian thực và độ tin cậy quan trọng đối với an toàn, đồng thời trình bày quan điểm về AI có thể giải thích được, lấy con người làm trung tâm, là yếu tố thiết yếu cho việc triển khai thành công công nghệ này trong các hệ thống giao thông thế hệ tiếp theo.