PerspectiveNetは、マルチカメラの観点から長文の説明を生成する軽量で効率的なモデルです。視覚的特徴を固定サイズのテンソルに変換する圧縮コネクタモジュールと、強力な自然言語生成能力を持つ巨大言語モデル(LLM)を活用します。コネクタモジュールは、視覚的特徴をLLM埋め込みにマッピングし、記述を生成するために必要な主な情報を強調し、固定サイズの特徴行列を生成する3つの目標をもって設計されています。また、正しいフレーム順序を検出するための補助タスクを追加して、説明を生成するための正しいフレーム順序を見つけることができます。最後に、コネクタモジュール、補助作業、LLM、および視覚的特徴抽出モデルを1つのアーキテクチャに統合し、交通安全の説明と分析作業のために訓練します。これは、マルチカメラと視点から詳細で細かいイベントの説明を生成する必要があります。結果モデルは軽量であり、効率的なトレーニングと推論を保証しながら高い効果を維持します。