PerspectiveNet은 다중 카메라 관점에서 장문의 설명을 생성하는 경량이면서 효율적인 모델입니다. 시각적 특징을 고정 크기 텐서로 변환하는 압축 커넥터 모듈, 그리고 강력한 자연어 생성 능력을 가진 거대 언어 모델(LLM)을 활용합니다. 커넥터 모듈은 시각적 특징을 LLM 임베딩에 매핑하고, 설명 생성에 필요한 주요 정보를 강조하며, 고정 크기 특징 행렬을 생성하는 세 가지 목표를 가지고 설계되었습니다. 또한, 올바른 프레임 순서 탐지를 위한 보조 작업을 추가하여 설명 생성을 위한 올바른 프레임 순서를 찾을 수 있도록 합니다. 최종적으로 커넥터 모듈, 보조 작업, LLM, 그리고 시각적 특징 추출 모델을 하나의 아키텍처로 통합하여 교통 안전 설명 및 분석 작업을 위해 훈련합니다. 이 작업은 다중 카메라 및 관점에서 세부적이고 미세한 이벤트 설명을 생성해야 합니다. 결과 모델은 경량이어서 효율적인 훈련과 추론을 보장하면서 높은 효과를 유지합니다.