Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CCL-LGS: Aprendizaje de libros de códigos contrastivos para la dispersión gaussiana del lenguaje 3D

Created by
  • Haebom

Autor

Lei Tian, Xiaomin Li, Liqian Ma, Hao Yin, Zirui Zheng, Hefei Huang, Taiqing Li, Huchuan Lu, Xu Jia

Describir

Este artículo propone CCL-LGS, un nuevo marco para la comprensión semántica 3D. Para abordar los desafíos de los métodos 2D basados en valores previos, que presentan inconsistencias semánticas entre vistas debido a la oclusión, el desenfoque de la imagen y las variaciones dependientes de la vista, proponemos un método que mejora la supervisión semántica consistente con la vista mediante la incorporación de claves semánticas multivista. En concreto, alineamos máscaras 2D generadas por SAM mediante un rastreador de disparo cero, extraemos codificaciones semánticas robustas mediante CLIP y extraemos características semánticas discriminativas mejorando la compacidad intraclase y la distinción interclase mediante el módulo de Aprendizaje de Libro de Códigos Contrastivo (CCL). A diferencia de los métodos existentes, CCL-LGS resuelve explícitamente los conflictos semánticos manteniendo la discriminabilidad de categorías, en lugar de aplicar CLIP directamente a máscaras incompletas. Los resultados experimentales demuestran que CCL-LGS supera a los métodos de vanguardia existentes.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco que puede mejorar la precisión de la comprensión semántica 3D mediante la integración de señales semánticas de múltiples vistas.
Resuelva eficazmente el problema de inconsistencias semánticas entre vistas utilizando el rastreador de disparo cero y los módulos CLIP y CCL.
Rendimiento superior verificado experimentalmente sobre los métodos existentes.
Limitations:
Falta de análisis del coste computacional y la complejidad del método propuesto.
Se necesitan más experimentos para evaluar el rendimiento de la generalización en diferentes entornos y conjuntos de datos.
Hay piezas que dependen del rendimiento de otros modelos como SAM y CLIP.
👍