[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Ciudad-VLM: Hacia la comprensión de escenas de percepción multidominio mediante el aprendizaje incompleto multimodal

Created by
  • Haebom

Autor

Penglei Sun, Yaoxian Song, Xiangru Zhu, Xiang Liu, Qiang Wang, Yue Liu, Changqun Xia, Tiefeng Li, Yang Yang, Xiaowen Chu

Describir

En este artículo, presentamos un novedoso conjunto de datos de comprensión de escenas exteriores a gran escala, SVM-City, que contiene datos multimodales obtenidos de múltiples sensores y múltiples puntos de vista (vista aérea y a nivel del suelo) para superar las limitaciones de los modelos de lenguaje visual a gran escala (LVLM) existentes centrados en interiores. SVM-City consta de 420.000 imágenes recopiladas de vehículos, drones de baja altitud, aeronaves de gran altitud y satélites, 48,11 millones de nubes de puntos y 567.000 pares pregunta-respuesta. Además, diseñamos un nuevo LVLM, City-VLM, mediante la introducción de una técnica de aprendizaje multimodal incompleta para fusionar eficazmente los datos multimodales incluso cuando falta una modalidad. City-VLM realiza la fusión multimodal mediante la construcción de un espacio de distribución de probabilidad conjunto en lugar de una operación de fusión explícita. Los resultados experimentales en tres tareas representativas de comprensión de escenas al aire libre muestran que City-VLM tiene un rendimiento promedio un 18,14 % mejor en tareas de respuesta a preguntas que los LVLM existentes, lo que demuestra un rendimiento práctico y generalizable en varias escenas al aire libre.

Takeaways, Limitations

Takeaways:
Un nuevo conjunto de datos para comprender escenas al aire libre utilizando datos multisensor, multivista y multimodalidad: SVM-City
Proponer un método eficaz de fusión multimodal a través del aprendizaje multimodal incompleto
Desarrollo del modelo City-VLM que muestra un mejor rendimiento de comprensión de la escena exterior en comparación con el LVLM existente
Demostración del rendimiento de generalización en varias escenas al aire libre
Limitations:
Es necesario tener en cuenta consideraciones adicionales respecto del tamaño y la diversidad del conjunto de datos SVM-City.
Se necesitan más investigaciones sobre el rendimiento de generalización del aprendizaje multimodal incompleto.
Necesidad de análisis del coste computacional y la eficiencia de City-VLM
Es necesario revisar el sesgo potencial para tipos específicos de escenas al aire libre.
👍