PerspectiveNet es un modelo ligero y eficiente para generar descripciones extensas desde múltiples perspectivas de cámara. Utiliza un módulo conector comprimido que convierte las características visuales en tensores de tamaño fijo y un modelo de lenguaje grande (LLM) con potentes capacidades de generación de lenguaje natural. El módulo conector está diseñado con tres objetivos: mapear las características visuales a las incrustaciones LLM, resaltar la información clave necesaria para la generación de descripciones y generar matrices de características de tamaño fijo. Además, se añade una tarea auxiliar para detectar el orden correcto de los fotogramas y así ayudar a encontrarlo para la generación de descripciones. Finalmente, el módulo conector, la tarea auxiliar, el LLM y el modelo de extracción de características visuales se integran en una única arquitectura para el entrenamiento de la tarea de descripción y análisis de seguridad vial. Esta tarea requiere la generación de descripciones de eventos detalladas y detalladas desde múltiples cámaras y perspectivas. El modelo resultante es ligero, lo que garantiza un entrenamiento e inferencia eficientes, manteniendo un alto rendimiento.