本論文は、大規模言語モデル(LLM)とコンピュータビジョンの統合が画像分割などの知覚作業に与える影響を体系的に検討したアンケート論文です。特にインテリジェント交通システム(ITS)に焦点を当て、正確なシーン理解が安全と効率に重要なITS分野でLLMベースの画像分割のアプリケーション、課題、および将来の方向性を提示します。 LLMベースの画像分割のさまざまなアプローチをプロンプトメカニズムとコアアーキテクチャに基づいて分類し、自律走行、交通監視、インフラメンテナンスのための道路シーンの理解を向上させるための革新を強調します。最後に、リアルタイムのパフォーマンスと安全性の重要性信頼性などの主な課題を特定し、次世代交通システムにこの技術をうまく展開するための重要な要素として説明可能であり、人間中心のAIの視点を提示します。