[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Argus: Aprovechamiento de imágenes multivista para una mejor comprensión de escenas 3D con modelos de lenguaje de gran tamaño

Created by
  • Haebom

Autor

Yifan Xu, Chao Zhang, Hanqi Jiang, Xiaoyan Wang, Ruifei Ma, Yiwei Li, Zihao Wu, Zeju Li, Xiangde Liu

Describir

En este artículo, proponemos Argus, un novedoso marco multimodal 3D que aprovecha imágenes multivista para mejorar el rendimiento de los modelos de lenguaje a gran escala (LLM) en la comprensión de escenas 3D. Para abordar los problemas de pérdida de información y distorsión de los métodos existentes basados en nubes de puntos 3D, utilizamos la consistencia visual y la información detallada de las imágenes multivista 2D para compensar las deficiencias de las nubes de puntos 3D. Argus es un modelo multimodal 3D a gran escala (3D-LMM) que toma instrucciones de texto, imágenes multivista 2D y nubes de puntos 3D como entradas, y genera incrustaciones de escenas completas y detalladas con reconocimiento 3D mediante la integración de imágenes multivista e información de posición de la cámara con características 3D. Los resultados experimentales muestran que Argus supera a los 3D-LMM existentes en diversas subtareas.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para resolver eficazmente el problema de pérdida de información de las nubes de puntos 3D mediante el uso de imágenes de múltiples vistas.
Proponer una arquitectura 3D-LMM para mejorar la capacidad de comprensión de escenas 3D de LLM.
Demuestra un rendimiento superior a los métodos existentes en varias subtareas.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método presentado en este artículo y su aplicabilidad a varios tipos de escenas.
Se requiere análisis y mejora del coste computacional y del tiempo de procesamiento.
Se necesita un análisis adicional sobre las dependencias y restricciones de tipos específicos de imágenes o nubes de puntos.
👍